大型语言模型生成内容质量自评估提升选择性生成

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 大型语言模型生成内容质量自评估提升选择性生成
【论文简述】 大型语言模型(LLMs)在自然语言处理领域取得了显著的进展，但如何评估其生成内容的质量仍然是一个挑战。本文提出了一种基于自评估的方法，将开放生成任务转化为基于令牌的预测任务，利用LLMs在令牌层面的优越校准能力。具体来说，作者设计了两种自评估方法：多选比较和点对点评估，并在TRUTHFULQA和TL;DR基准测试中评估了基于自评估的评分方法的性能。实验结果表明，自评估方法不仅提高了准确性，而且与生成内容的整体质量相关性更好。这项工作为提高LLMs生成内容的质量校准提供了一种有效途径，有助于实现LLMs的安全部署。
【论文链接】 https://arxiv.org/abs/2312.09300

打开封面下载高清视频观看高清视频视频下载器

大型语言模型生成内容质量自评估提升选择性生成

PromptBench：全面评估大型语言模型的统一框架

基于上下文调整的检索增强生成方法

面向大型语言模型的有约束文本生成方法

对比激活添加：精确操控大型语言模型行为的新方法

语义压缩：扩展大型语言模型的上下文窗口

大型语言模型潜在知识发现的挑战

基于认知树的小型语言模型推理能力提升

语言模型对齐新方法：基于对比不似然训练的判断反馈

利用数据中心方法提升大型语言模型在金融领域的应用

大规模语言模型的数学求解能力的安全性评估

TextGenSHAP：面向长文本的可扩展生成解释方法

基于LLM的输入输出安全保障模型：Llama Guard在人机对话中的应用

分布式大型语言模型的互联网低成本推理与微调

探索大型语言模型在工业芯片设计中的应用

大型语言模型在上下文学习中的可靠性提升：结合监督知识的方法

开源指令生成：用开源代码提升代码生成模型性能

大型语言模型在代码生成基准测试中表现出良好性能

融合像素与潜在扩散模型的文本到视频生成方法

大规模语言模型在多模态音乐理解与生成中的应用

LoRAShear：一种有效的大型语言模型结构压缩方法

蜜蜜蜂：一种局部增强的多模态大型语言模型投影器

斑马模型：通过分层分组的局部-全局注意力提升语言模型的长文本处理能力

大型语言模型 (LLMs) 在应对需要任务规划和使用外部工具的任务时表现出了熟练的能力

探索ChatGPT与大型语言模型(LLMs)背后的技术

闪电注意力-2：大型语言模型处理无限序列长度的高效方法

多模态大型语言模型深度比较：Gemini与GPT-4V的全面评估与结合

Video-Bench: 全面评估视频大型语言模型的基准测试和工具包

利用FP8低位数据格式高效地训练大型语言模型

LLAMA PRO：基于Transformer块扩展的渐进式大型语言模型

面向诚实的对齐：提升大型语言模型的知识边界意识

基于扩散模型的可控4D引导视频生成

高斯涂抹文本生成三维模型

基于潜在变量推断的训练链式思维提升语言模型推理能力

Merlin：赋予多模态大型语言模型未来洞察力

大规模语言模型的训练与优化研究

大型语言模型：从训练到推理的全面综述

Densely Captioned Images: 评估视觉语言模型的新基准

重新定义LLM量化：一种面向生成任务的全新FP6中心策略

LLM360：推动全透明开源大型语言模型研究

生成高质量的长视频：SEINE视频扩散模型