V
主页
“显微镜”下的RAG:通过 RAGChecker 进行细粒度诊断评估
发布人
主题 “显微镜”下的检索增强生成:通过 RAGChecker 进行细粒度诊断评估 RAG Under the Microscope: Fine-grained Diagnostic Evaluation by RAGChecker 嘉宾 茹栋宇,亚马逊上海人工智能研究院应用科学家。毕业于上海交通大学 APEX 实验室。研究兴趣包括大语言模型,长文本生成,大模型幻觉问题,检索增强生成等。曾在ACL,EMNLP,SIGIR等会议发表多篇论文。 胡祥坤,亚马逊上海人工智能研究院应用科学家。毕业于复旦大学自然语言处理实验室。研究兴趣包括大语言模型,多模态模型,大模型幻觉问题,检索增强生成等。曾在ACL,EMNLP,SIGIR等会议发表多篇论文。 主持人 王存翔 清华博后、智谱高级研究员 论文:RAGCHECKER: AFine-grained Framework for Diagnosing Retrieval-Augmented Generation 链接:https://arxiv.org/abs/2408.08067 大纲 引言 RAG系统概述 评估RAG系统的挑战 背景 现有RAG评估方法及其局限性 细粒度RAG评估框架的需求 细粒度幻觉检测 幻觉简介 RefChecker:以知识为中心的幻觉检测 KnowHalBench数据集 实验结果 RAGCHECKER 指标 总体指标 精度,召回率,F1分数 检索器诊断指标 声明召回率,上下文精度 生成器诊断指标 上下文利用率,噪声敏感性,幻觉等 元评估:为什么RAGChecker可靠 与现有评估框架的比较 与人工判断的相关性 实验结果分析 基准数据集和基准RAG系统评估 RAG系统设计中的重要发现和平衡 RAG配置的建议 局限性与未来工作 RAGCHECKER的局限性 潜在改进和未来扩展领域 总结与问答 引言 大型语言模型(LLMs)在文本生成方面表现出卓越的能力,但它们通常存在信息过时和幻觉的问题。面对这些问题,检索增强生成(RAG)系统成为一种有效的解决方案。RAG 通过整合外部检索到的知识来增强大模型,从而实现更精确和上下文相关的回答。 随着 RAG系统逐渐成为各种应用的核心部分,开发鲁棒且全面的评估框架显得尤为重要。然而,评估RAG系统面临若干挑战:1)模块化复杂性:RAG系统由检索器和生成器组成,设计有效的评估指标以评估整个系统以及各个模块变得困难。2)指标局限性:现有指标通常难以为检索和生成组件提供准确且可解释的结果,尤其对于较长的回答。3)指标可靠性:现有指标在RAG中的可靠性仍未得到充分探索,特别是在与人类判断的一致性方面。现有的方法往往侧重于RAG系统的特定方面,或者缺乏细粒度的评估能力。 在此背景下,RAGCHECKER框架引入了一种RAG评估的新方法。它旨在通过针对性地检查片段声明级的蕴涵关系,为检索和生成过程提供全面的评估。RAGCHECKER提供了一套指标,用于诊断RAG系统的性能,识别错误来源,并指导系统设计的改进。本次分享将深入探讨RAGCHECKER框架、实现方法,以及它对RAG系统开发和改进的潜在影响。
打开封面
下载高清视频
观看高清视频
视频下载器
B站讲的最好的AI大模型实战(2024最新版)LLM+RAG系统+GPT-4o+OpenAI,全部都讲明白了!!
从零开始训练大模型
LLM推理加速新范式!推测解码(Speculative Decoding)最新综述
EMNLP2024分享会之Agent主题
生成式搜索引擎能否取代检索技术?
蛋白质交流的艺术:ProLLM用'思维链'重新定义蛋白质相互作用预测!
【大模型面试】Flash Attention面试连环炮,淘汰80%面试竞争者
知识斗地主:解析RAG大模型中复杂的知识冲突
RNN卷土重来:基于门控记忆槽的线性注意力机制
EMNLP2024分享会之可解释性、资源与评估
脆弱的不确定性:大模型的可信度如何被操控
强推!基于LangChain实现RAG检索增强+吴恩达构建和评估高级的RAG模型应用教程,实现大模型落地!
EMNLP2024分享会之模型对齐主题
【一小时掌握RAG】从0到1搭建一套完整的RAG系统,知识讲解+部署源码+实战项目+代码解析,大模型RAG企业项目实战教程!
【全878集】零基础自学AI大模型能救一个是一个,新手小白少走99%的弯路(LLM+RAG系统+GPT-4o+OpenAI)光刷完就赢麻了,通俗易懂|学完即
《大模型与Agent开发实战课》焕新升级!微调、RAG、Agent全体系技术详解 | 四大自研Agent万行代码项目实战 | 0基础直达大模型技术应用底层
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
【喂饭教程】ollama+FastGPT快速搭建本地知识库,免费、无限制、保护隐私、无需网络~小白入门必看的保姆级教程!
使用原生 Python 实现 RAG
EMNLP2024分享会之模型安全主题
【NICE二期】姚杳:从CoT到Agent的列车即将发车,请各位旅客尽快上车
2024AI大模型核心技术揭秘,大模型RAG项目实战基于Llamalndex构建企业级私有知识库
【Ollama+RAGFlow】快速搭建本地知识库,免费、无限制、保护隐私、无需网络~小白入门必看的保姆级教程!
15分钟手把手教你在RAG中如何选择合适的embedding模型!附解析代码!
Deita: 用高质量数据在微调中“四两拨千斤”
大语言模型的时间魔法:从共时推理到框架优化
2024吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI),3天学完,让你少走99%弯路!
OpenRLHF:大规模分布式RLHF训练系统介绍
【MindSpore NLP SIG 】MindNLP 0.4新特性解读
当心环境内容的干扰:大模型GUI智能体的忠实度研究
使用 JavaScript、LangChain.js、Next.js、Vercel 和 OpenAI 构建和部署 RAG 聊天机器人
【NICE一期】张子殷:代码大模型综述
评估大语言模型多轮对话能力的细粒度评测集
这可能是B站讲的最好的AI大模型教程,一周吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI) 让你少走99%弯路!(2024最新版)
LLMLingua: 压缩prompt构造LLMs的语言
【中文配音】Local LightRAG:一种GraphRAG替代品,但与Ollama完全本地化
【2024最新】自然语言处理(NLP)文本分类实战,一天练完,从零基础入门到精通再到实战,超详细的保姆级教程!!附开源项目
【李宏毅】2024秋《生成式人工智能导论》教程!LLM大模型入门到进阶,比刷剧爽多了!--附带课件代码
英伟达发布MM-Embed:融合文本和图像的跨模态信息检索新模型
多模态RAG #1:与包含图像的文档聊天 | 学习如何使用 CLIP model 构建多模式 RAG 系统