[personal chatgpt] instructGPT 中的 reward modeling,概率建模与损失函数性质
发布人