从0开始训练1.4b中文大模型的经验分享

发布人

从0开始训练1.4b中文大模型的经验分享  【NICE十一期】
嘉宾：黎健进

23年硕士毕业于在华南师范大学
现工作于深圳知名金融公司

知乎：Lil2J
https://zhuanlan.zhihu.com/p/684946331

打开封面下载高清视频观看高清视频视频下载器

全栈大模型微调框架LLaMA Factory：从预训练到RLHF的高效实现

从零开始训练大模型

从零开始手搓一个LLM（一）把参数缩减到足够单卡训练的NanoGPT

训练大模型LLM对话语料获取：从知识文本中提炼对话的工具

Deita: 用高质量数据在微调中“四两拨千斤”

如何从零搭建一个属于自己的大语言模型？训练自己的LLM最佳指南来了！保姆级教程，小白一看就会！

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

大模型技术栈全览

知识斗地主：解析RAG大模型中复杂的知识冲突

符号化规则强化CoT，大幅提高推理性能 - ACL2024

从0训练一个中英双语的GPT小模型 Retriever2-0.1B

第二十课：MoE

膜拜！这应该是整个B站讲解最通俗易懂的ChatGLM+Langchain实战教程，预训练＆微调技术，官方大佬倾力打造！

qwen大模型地部署和微调法律大模型（只需5G内存）

【合集】从零训练专属大模型技术实战｜Llama 3架构大模型训练实战｜稳定高质量对话大模型训练｜分词器训练+预训练+全量指令微调全流程技术实战

【博学谷黑马2024】AI大模型训练营1期

【实战】通义千问1.8B大模型微调，实现天气预报功能

大模型微调实践数据准备/清洗、模型微调、模型评估全链路案例演示

评估中文大模型中的幻觉

LLaMA-MoE：基于参数复用的混合专家模型构建方法探索

【保姆级教程】6小时掌握开源大模型本地部署到微调，从硬件指南到ChatGLM3-6B模型部署微调实战｜逐帧详解｜直达技术底层

从0训练一个GPT小模型 Retriever-0.1B

吴恩达大模型【Langchain-ChatGLM】已开源！手把手带你实现：大模型预训练和模型微调，我1小时就学会了！

LlamaFactory:微调QWe (千问)模型简单微调多数模型的便捷方法

通俗易懂理解大模型预训练和微调

大模型并发加速部署解析当前应用较广的几种并发加速部署方案！

从0训练一个GPT的tokenizer

动手学RAG：Part1 什么是RAG？

[测试] qwen 0.5b 1.8b 7b 14b 模型翻译文本测试 14b 效果不错 7b 可以接受

微调Whisper，让它学会潮州话

大模型是怎么训起来的？分布式并行框架介绍 #大模型 #分布式并行 #训练

《动手学大模型》全网首发，小白也能做应用，教你什么是大模型&如何使用大模型

【李宏毅】2024年公认最好的【LLM大模型】教程！大模型入门到进阶，一套全解决！2024生成式人工智慧-附带课件代码

如何训练一个写小说的大模型？

理解大模型训练的几个阶段 Pretraining，SFT，RLHF

LLMLingua: 压缩prompt构造LLMs的语言

【太牛了】2024必会的AI Agent（应用解读+项目实战）通俗易懂的解读了Agent核心框架，全流程分析-人工智能

手把手带你从0到1实现大模型agent

将ChatGPT训练成某个领域的专家【保姆级教程】

Transformer从零详细解读(可能是你见过最通俗易懂的讲解)

从0开始训练1.4b中文大模型的经验分享

全栈大模型微调框架LLaMA Factory：从预训练到RLHF的高效实现

从零开始训练大模型

从零开始手搓一个LLM（一）把参数缩减到足够单卡训练的NanoGPT

训练大模型LLM对话语料获取：从知识文本中提炼对话的工具

Deita: 用高质量数据在微调中“四两拨千斤”

如何从零搭建一个属于自己的大语言模型？训练自己的LLM最佳指南来了！保姆级教程，小白一看就会！

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

大模型技术栈全览

知识斗地主：解析RAG大模型中复杂的知识冲突

符号化规则强化CoT，大幅提高推理性能 - ACL2024

从0训练一个中英双语的GPT小模型 Retriever2-0.1B

第二十课：MoE

膜拜！这应该是整个B站讲解最通俗易懂的ChatGLM+Langchain实战教程，预训练＆微调技术，官方大佬倾力打造！

qwen大模型地部署和微调法律大模型（只需5G内存）

【合集】从零训练专属大模型技术实战｜Llama 3架构大模型训练实战｜稳定高质量对话大模型训练｜分词器训练+预训练+全量指令微调全流程技术实战

【博学谷黑马2024】AI大模型训练营1期

【实战】通义千问1.8B大模型微调，实现天气预报功能

大模型微调实践数据准备/清洗、模型微调、模型评估 全链路案例演示

评估中文大模型中的幻觉

LLaMA-MoE：基于参数复用的混合专家模型构建方法探索

【保姆级教程】6小时掌握开源大模型本地部署到微调，从硬件指南到ChatGLM3-6B模型部署微调实战｜逐帧详解｜直达技术底层

从0训练一个GPT小模型 Retriever-0.1B

吴恩达大模型【Langchain-ChatGLM】已开源！手把手带你实现：大模型预训练和模型微调，我1小时就学会了！

LlamaFactory:微调QWe (千问)模型 简单微调多数模型的便捷方法

通俗易懂理解大模型预训练和微调

大模型并发加速部署 解析当前应用较广的几种并发加速部署方案！

从0训练一个GPT的tokenizer

动手学RAG：Part1 什么是RAG？

[测试] qwen 0.5b 1.8b 7b 14b 模型翻译文本测试 14b 效果不错 7b 可以接受

微调Whisper，让它学会潮州话

大模型是怎么训起来的？分布式并行框架介绍 #大模型 #分布式并行 #训练

《动手学大模型》全网首发，小白也能做应用，教你什么是大模型&如何使用大模型

【李宏毅】2024年公认最好的【LLM大模型】教程！大模型入门到进阶，一套全解决！2024生成式人工智慧-附带课件代码

如何训练一个写小说的大模型？

理解大模型训练的几个阶段 Pretraining，SFT，RLHF

LLMLingua: 压缩prompt构造LLMs的语言

【太牛了】2024必会的AI Agent（应用解读+项目实战）通俗易懂的解读了Agent核心框架，全流程分析-人工智能

手把手带你从0到1实现大模型agent

将ChatGPT训练成某个领域的专家【保姆级教程】

Transformer从零详细解读(可能是你见过最通俗易懂的讲解)

大模型微调实践数据准备/清洗、模型微调、模型评估全链路案例演示

LlamaFactory:微调QWe (千问)模型简单微调多数模型的便捷方法

大模型并发加速部署解析当前应用较广的几种并发加速部署方案！