练习两天半,从零复现reinforce++和reinforce++-baseline算法(顺便吐槽trl框架,被坑到了),从原理到代码实现,清晰易懂,一眼就会

猜你喜欢
返回顶部