基于TRL训练大预言模型,DPO,PPO方法.
发布人