大型语言模型与生成式AI——使用指令对LLM进行微调5——模型评估

发布人

大型语言模型与生成式AI——使用指令对LLM进行微调5——模型评估


#大型语言模型与生成式AI


今天，我们将深入探讨如何评估大型语言模型的性能。你可能已经知道，在机器学习中，我们通常通过查看模型在训练和验证数据集上的表现来评估其性能。但是，对于大型语言模型，这个过程就变得更具挑战性了。

这就是为什么我们需要特殊的评估指标，比如ROUGE和BLEU。ROUGE主要用于评估自动生成的摘要的质量，而BLEU则主要用于评估机器翻译文本的质量。这两个指标都是通过比较生成的文本和人工生成的参考文本来计算得出的。

让我们先来看看ROUGE。ROUGE-1指标通过计算召回率、精确度和F1分数来评估模型的性能。但是，这些基本指标只关注单个单词，并不考虑单词的顺序。为了解决这个问题，我们可以使用bigram（两个词的集合）来计算一个更准确的ROUGE-2指标。这种方式以一种非常简单的方式承认了句子中单词的顺序。

接下来，我们来看看BLEU分数。BLEU分数通过检查机器生成的翻译中有多少n-gram与参考翻译中的匹配，来量化翻译的质量。分数本身是通过对多个n-gram大小的平均精确度进行计算得出的。

尽管Rouge和BLEU都是相当简单的指标，计算成本相对较低，可以在迭代模型时用它们作为简单的参考，但我们不应该只用它们来报告大型语言模型的最终评估。对于模型性能的整体评估，我们需要看一下研究人员开发的评估基准。

希望这个视频能帮助你更好地理解如何评估大型语言模型的性能。


课程地址：https://www.coursera.org/learn/generative-ai-with-llms/lecture/8Wvg3/model-evaluation

播放列表：
油管：https://www.youtube.com/watch?v=X7r4rL2T2lg&amp;list=PLiuLMb-dLdWL4KBaU3FTM5f_oMcSvXcZw
B站：https://www.bilibili.com/video/BV12s4y1r7jf/?spm_id_from=333.999.section.playall&amp;vd_source=e71f65cbc40a72fce570b20ffcb28b22

打开封面下载高清视频观看高清视频视频下载器

大型语言模型与生成式AI——使用指令对LLM进行微调5——模型评估

大型语言模型与生成式AI——参数高效微调1——参数高效微调（PEFT）

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期3——生成式AI和大语言模型的输出

大型语言模型与生成式AI——使用指令对LLM进行微调2——指令微调

大型语言模型与生成式AI——使用指令对LLM进行微调1——介绍

生成式AI学习5——编码器-解码器架构（上）概述

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期 2——介绍

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期6——Transformer架构

生成式 AI 入门教程 2 - 什么是生成式 AI - 原理和指南

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期 1——课程介绍

大型语言模型与生成式AI——使用指令对LLM进行微调6——基准测试

使用Gradio构建生成式AI应用1：课程介绍

大型语言模型与生成式AI——人类反馈强化学习1——引言

大型语言模型与生成式AI——人类反馈强化学习7——PPO增强学习算法深度解析

使用Gradio构建生成式AI应用5：图文互生游戏

2024公认最好的【吴恩达微调+私有化大模型】教程！更适合中国宝宝体质，全程干货无废话，学完成为大模型微调大佬！（附课件+代码）

如何让小型语言模型高效工作。Yejin Choi在2024年数据与AI峰会上发表演讲（双语字幕）

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期7——用Transformer生成文本

生成式AI学习9——Transformer模型和BERT模型（下）演示

Zapier 的联合创始人 Mike Knoop 演示新的 AI 自动化工作流

大语言模型微调之道2——为什么要微调

大语言模型微调之道6——训练过程

生成式AI学习10——创建图像字幕模型（上）概述

Google的教学视频《生成式AI介绍》（中英双语字幕）

基于LangChain的大语言模型应用开发4——链

大语言模型微调之道3——微调在训练过程中的位置

面向所有人的生成式 AI 入门课程 4 - 什么是生成式 AI - AI 是一种通用技术

大语言模型微调之道1——介绍

面向所有人的生成式 AI 入门课程 9 - 生成式 AI 应用 - 高效提示词撰写技巧

面向所有人的生成式 AI 入门课程 7 - 生成式 AI 应用 - 聊天

使用ChatGPT API构建系统3——输入评估：审查

一起学多 AI 智能体系统（双语字幕）- 5. AI 智能体的 6 个关键要素

【AI大模型部署】手把手教你使用Ollama部署中文微调Llama3，新手保姆级教程！

基于LangChain的大语言模型应用开发5——基于文档的问答

MIT《TinyML和高效深度学习计算L5 - 量化|EfficientML.ai Course 2024 Fall MIT 6.5940》豆包

最近 CNBC 对 Airbnb CEO Brian Chesky 采访的一段视频，谈到了去年 OpenAI 宫斗以及 Airbnb 在 AI 的应用

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期8——Prompt和提示工程

【B站最全】2024最新清华内部版大模型课程第二季！从入门到进阶！全程干货讲解，通俗易懂，学完及就业！

从商业思维到AI实施：利用Semantic Kernel构建插件之路2 —— Semantic Kernel就像你的AI“烹饪厨房”

使用ChatGPT API构建系统8——评估（上）