V
主页
大型语言模型生成内容质量自评估提升选择性生成
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 大型语言模型生成内容质量自评估提升选择性生成 【论文简述】 大型语言模型(LLMs)在自然语言处理领域取得了显著的进展,但如何评估其生成内容的质量仍然是一个挑战。本文提出了一种基于自评估的方法,将开放生成任务转化为基于令牌的预测任务,利用LLMs在令牌层面的优越校准能力。具体来说,作者设计了两种自评估方法:多选比较和点对点评估,并在TRUTHFULQA和TL;DR基准测试中评估了基于自评估的评分方法的性能。实验结果表明,自评估方法不仅提高了准确性,而且与生成内容的整体质量相关性更好。这项工作为提高LLMs生成内容的质量校准提供了一种有效途径,有助于实现LLMs的安全部署。 【论文链接】 https://arxiv.org/abs/2312.09300
打开封面
下载高清视频
观看高清视频
视频下载器
PromptBench:全面评估大型语言模型的统一框架
基于上下文调整的检索增强生成方法
面向大型语言模型的有约束文本生成方法
对比激活添加:精确操控大型语言模型行为的新方法
语义压缩:扩展大型语言模型的上下文窗口
大型语言模型潜在知识发现的挑战
基于认知树的小型语言模型推理能力提升
语言模型对齐新方法:基于对比不似然训练的判断反馈
利用数据中心方法提升大型语言模型在金融领域的应用
大规模语言模型的数学求解能力的安全性评估
TextGenSHAP:面向长文本的可扩展生成解释方法
基于LLM的输入输出安全保障模型:Llama Guard在人机对话中的应用
分布式大型语言模型的互联网低成本推理与微调
探索大型语言模型在工业芯片设计中的应用
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
开源指令生成:用开源代码提升代码生成模型性能
大型语言模型在代码生成基准测试中表现出良好性能
融合像素与潜在扩散模型的文本到视频生成方法
大规模语言模型在多模态音乐理解与生成中的应用
LoRAShear:一种有效的大型语言模型结构压缩方法
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
斑马模型:通过分层分组的局部-全局注意力提升语言模型的长文本处理能力
大型语言模型 (LLMs) 在应对需要任务规划和使用外部工具的任务时表现出了熟练的能力
探索ChatGPT与大型语言模型(LLMs)背后的技术
闪电注意力-2:大型语言模型处理无限序列长度的高效方法
多模态大型语言模型深度比较:Gemini与GPT-4V的全面评估与结合
Video-Bench: 全面评估视频大型语言模型的基准测试和工具包
利用FP8低位数据格式高效地训练大型语言模型
LLAMA PRO:基于Transformer块扩展的渐进式大型语言模型
面向诚实的对齐:提升大型语言模型的知识边界意识
基于扩散模型的可控4D引导视频生成
高斯涂抹文本生成三维模型
基于潜在变量推断的训练链式思维提升语言模型推理能力
Merlin:赋予多模态大型语言模型未来洞察力
大规模语言模型的训练与优化研究
大型语言模型:从训练到推理的全面综述
Densely Captioned Images: 评估视觉语言模型的新基准
重新定义LLM量化:一种面向生成任务的全新FP6中心策略
LLM360:推动全透明开源大型语言模型研究
生成高质量的长视频:SEINE视频扩散模型