[veRL] 从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy

猜你喜欢
返回顶部