V
主页
大型语言模型与生成式AI——使用指令对LLM进行微调6——基准测试
发布人
大型语言模型与生成式AI——使用指令对LLM进行微调6——基准测试 #大型语言模型与生成式AI# 在上一期视频中,我们了解到大型语言模型(LLMs)的复杂性,以及像ROUGE和BLEU这样的简单评估指标只能告诉我们模型能力的一部分。为了更全面地衡量和比较LLMs,我们可以利用预先存在的数据集和基准。选择正确的评估数据集至关重要,这样你才能准确评估LLM的性能,并了解其真正的能力。 基准测试,如GLUE、SuperGLUE或HELM,覆盖了广泛的任务和场景。GLUE(General Language Understanding Evaluation)是2018年引入的,它是一系列自然语言任务的集合,如情感分析和问题回答。作为GLUE的后继者,SuperGLUE在2019年引入,以解决其前身的限制。它包括一系列任务,其中一些不包括在GLUE中,一些则是同样任务的更具挑战性的版本。 随着模型变得更大,它们在SuperGLUE等基准测试中的表现开始接近人类在特定任务上的能力。也就是说,模型能够在基准测试中表现得和人类一样好,但从主观上看,我们可以看到它们在一般任务中的表现并不达到人类水平。 最近有一些新的基准正在进一步推动LLMs的发展。Massive Multitask Language Understanding(MMLU)专门为现代LLMs设计。要表现良好,模型必须具备广泛的世界知识和问题解决能力。BIG-bench目前包括204个任务,涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域。 你应该了解的最后一个基准是Holistic Evaluation of Language Models(HELM)。HELM框架旨在提高模型的透明度,并提供关于哪些模型在特定任务上表现良好的指导。HELM采用多指标方法,在16个核心场景中测量七个指标,确保模型和指标之间的权衡清晰可见。 课程地址:https://www.coursera.org/learn/generative-ai-with-llms/lecture/1OMma/benchmarks 播放列表: 油管:https://www.youtube.com/watch?v=X7r4rL2T2lg&list=PLiuLMb-dLdWL4KBaU3FTM5f_oMcSvXcZw B站:https://www.bilibili.com/video/BV12s4y1r7jf/?spm_id_from=333.999.section.playall&vd_source=e71f65cbc40a72fce570b20ffcb28b22
打开封面
下载高清视频
观看高清视频
视频下载器
【RAG项目实战】手把手带你搭建一套完整的RAG系统,原理讲解+代码解析,草履虫都能学明白!LLM大模型/RAG/LangChain/知识库
大语言模型微调之道5——准备数据
2 分钟解释什么是生成式 AI(双语字幕)
面向所有人的生成式 AI 入门课程 8 - 生成式 AI 应用 - 大语言模型的能力与局限
【AI项目实战】全网最适合新手入门的【RAG医疗问答系统】教程:如何搭建一个基于RAG的医疗问答系统,我竟30分钟就搞懂了?
【保姆级教程】使用LLaMA-Factory,实现Llama3中文增强模型微调+法律大模型微调
The Prompt with Trevor Noah | 第4集:大语言模型如何助力人们戒烟和战胜其他成瘾?
生成式 AI 入门教程 3 - 什么是生成式 AI - 大语言模型作为思考助手
Mistral 入门指南 —— 概览
使用Gradio构建生成式AI应用1:课程介绍
Ilya Sutskever 和黄仁勋的炉边谈话-- LLM 所做的远不止预测下一个词
手把手教学、零基础10分钟学会、用 Coze+低代码 搭建AI智能体应用
AI 是功能还是产品?(双语字幕)
科技向善:借助 AI 让 ALS(肌萎缩性侧索硬化症)患者也能进行艺术创作
The Prompt with Trevor Noah | 第5集:AI 如何助力临床医生提升胰腺癌早期检测?
Mistral 入门指南 —— 总结
什么是 AI 智能体?(双语字幕)
一起学多 AI 智能体系统(双语字幕)- 2. 概览
【Coze教程】这可能是全网最系统的Coze入门教程了!手把手教你用Coze手搓Agent智能体到搭建Coze工作流,入门到精通!
使用Gradio构建生成式AI应用2:NLP 任务接口
面向所有人的生成式 AI 入门课程 9 - 生成式 AI 应用 - 高效提示词撰写技巧
Mistral 入门指南 —— 如何从头实现一个简单的检索增强生成(RAG)
开源项目 postgres.new 使用自然语言设计数据库,可视化查看表的关系图,聊天界面对数据库的数据增删改查,生成图表
一分钟学 AI 之 —— 什么是生成式 AI
一起学多 AI 智能体系统(双语字幕)- 3. 什么是 AI 智能体
面向所有人的生成式 AI 入门课程 5 - 生成式 AI 应用 - 写作
一起学多 AI 智能体系统(双语字幕)- 5. AI 智能体的 6 个关键要素
30分钟教会你使用Llama Factory微调一个专属自己的中文llama3
The Prompt with Trevor Noah | 第6集:有时AI是唯一的解决方案
B站首推!AI大模型课程2024年最新版!从零基础到入行大模型算法工程师,看完这一篇就够了,学完来找我内推!
一分钟学 AI 之 —— 什么是向量搜索
(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程!附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI
吴恩达:AI 智能体工作流的未来展望
【一小时掌握RAG】从0到1搭建一套完整的RAG系统,知识讲解+部署源码+实战项目+代码解析,大模型RAG企业项目实战教程!
【Dify开源项目实战 】目前B站最详细的Dify快速入门教程,手把手教你基于Llama 3.1和OpenAI创建聊天机器人与知识库
30分钟学会微调Qwen1.8B大模型,轻松实现天气预报功能
【李宏毅】2024秋《生成式人工智能导论》教程!LLM大模型入门到进阶,比刷剧爽多了!--附带课件代码
开源AI女友安装教学 [Open-LLM-VTuber]
大语言模型微调之道6——训练过程
The Prompt with Trevor Noah | 第7集:使用AI检测政治深度伪造