从人类反馈中学习:纳什学习在大型语言模型中的应用
发布人