Simple and Scalable Strategies to Continually Pre-train Large Language Models

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 Simple and Scalable Strategies to Continually Pre-train Large Language Models
【论文简述】 本论文研究了大语言模型（LLM）的持续学习方法，以及该方法对性能的影响。传统的方法是将LLM在数十亿个标记上进行预训练，然后在有新数据时重新开始训练。而持续学习方法可以在新数据到来时继续预训练模型，大大节省了计算资源。然而，新数据引起的分布变化通常会导致在先前数据上性能下降或对新数据的适应性不佳。本研究通过学习率调整、重播先前数据等简单可扩展的组合方法，证明了在所有可用数据上，这种持续学习方法可以与完全重新训练的方法相媲美，表现为最终损失和语言模型评估基准。我们在常用的LLM预训练数据集（英语→英语）之间以及更强的分布变化（英语→德语）下进行实验，模型规模为405M参数，并使用大规模数据集（数千亿个标记）。在更大规模的实验中，选择了弱但现实的分布变化，并发现我们的持续学习策略可以与重新训练基线在100B参数LLM上匹配。我们的结果表明，LLM可以通过简单可扩展的持续学习策略进行更新，仅使用部分计算资源即可达到重新训练的基线。最后，受到先前工作的启发，我们提出了替代余弦学习率调度的方法，帮助克服由学习率调整引起的遗忘问题，并且不限于固定的标记预算。
【论文链接】 https://arxiv.org/abs/2403.08763

打开封面下载高清视频观看高清视频视频下载器

Simple and Scalable Strategies to Continually Pre-train Large Language Models

LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language M

OneBit: Towards Extremely Low-bit Large Language Models

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Agent+RAG大模型落地应用实践经验分享（超级干货）

OpenWebUI+Ollama本地部署保姆级教程（非Docker），轻松搭建大语言模型！

# LLM基础常见面试题（十三） -- RAG专题

Ollama+OpenWebUI超简单部署教程！附安装文档，本地部署大模型教程，让你快速部署属于自己的本地知识库！

【喂饭教程】6分钟学会微调大模型GLM-4，环境配置+模型微调+模型部署+效果展示详细教程！草履虫都能学会~

【宝藏级微调教程】使用Llama Factory实现中文llama3微调，这绝对是全B站最用心（没有之一）

从零开始学习Cuda-06-加法算子优化

【李宏毅】2024秋《生成式人工智能导论》教程！LLM大模型入门到进阶，比刷剧爽多了！--附带课件代码

珍藏的全球AI工具学习使用介绍合集 定期更新 欢迎收藏

本地部署企业级大模型新姿势：智能体一体机

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

大模型研讨课第一期（共10期）

从零开始，教你手搓一个精简版LLM，把参数缩减到足够单卡训练的NanoGPT，纯小白教学！

NeurIPS'24预讲会｜大语言模型12篇工作：多智能体协作、端到端信息检索、高效微调架构、不确定性感知规划等

威斯康星大佬又火了，刚发布的 从零构建大语言模型书 终于搞到了，用pytorch就能搞定大模型！（附书籍）

吴恩达 AI大模型系列：LLMs作为操作系统|LLMs as Operating Systems: Agent Memory(附课件+代码文档)

MIT《TinyML和高效深度学习计算L18-Diffusion Model|EfficientML.ai 24Fall MIT 6.5940》deepseek

【强到离谱】2024必会的AI Agent（应用解读+项目实战）通俗易懂的解读了Agent核心框架，全流程分析-人工智能/AlAgent/AI大模型

终于找到大模型工作了现在把2万多买的课程免费分享

神经网络绘图简直是太容易了！

免费无限使用大语言模型，国内主流AI智能助手汇总

ChatDKU：a RAG-agent AI Chatbot for Duke Kunshan University(DKU)

【Grok-Beta 】马斯克为庆祝特朗普当选 宣布【几乎免费的大语言模型API】每月赠送25美金算力金 适用于最新发布的大语言模型Grok-Beta 快来注册

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

TrustLLM: Trustworthiness in Large Language Models

吴恩达 AI大模型系列：使用 crewAI 的实用多 AI 代理和高级用例丨Advanced Use Cases with crewAI(附课件+代码文档)

Fish-speech 1.4.2语音克隆工具，支持模型微调训练，API服务，文本生成语音，集成大语言模型语音聊天，本地一键部署整合包，解压即用

AlphaFold 3 模型架构

【AI大模型】吹爆！这可能是B站最新的Agentic RAG教程了！IBM顶级科学家一对一解答！

年度神书！用GPT4和ChatGPT开发应用程序，附电子版和源码

别错过！国乒体能训练 | 黑科技揭秘

【Llama3微调全攻略】B站最全教程！手把手教你微调-量化-部署-应用一条龙！

B站强推！绝对保姆级教程，同济大佬从零到一讲解【llama3】微调、量化、部署及应用，全程大白话讲解绝对通俗易懂！

吴恩达 AI大模型系列：使用Amazon Bedrock的无服务器的智能工作流丨附课件+代码文档

【从零开始学大模型】五分钟学会本地部署！拥有自己的免费大模型！100%成功，零基础也能轻松看懂！-LLAMA/Qwen/大模型部署

Secrets of RLHF in Large Language Models Part II: Reward Modeling

【小白福音】Ollama + AnythingLLM，有手就行本地知识库部署，从安装到部署，手把手教你玩转知识库！

珍藏的全球AI工具学习使用介绍合集定期更新欢迎收藏

威斯康星大佬又火了，刚发布的从零构建大语言模型书终于搞到了，用pytorch就能搞定大模型！（附书籍）

【Grok-Beta 】马斯克为庆祝特朗普当选宣布【几乎免费的大语言模型API】每月赠送25美金算力金适用于最新发布的大语言模型Grok-Beta 快来注册