大模型RLHF从PPO推导DPO再推导SimPO,公式推导
发布人