大模型训练:Direct Preference Optimization (DPO) explained Bradley-Terry model
发布人