V
主页
Ziya2: Data-centric Learning is All LLMs Need
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 Ziya2: Data-centric Learning is All LLMs Need 【论文简述】 这篇论文介绍了最近几年提出的各种大规模语言模型(LLMs),包括闭源和开源模型,在多个基准测试上不断刷新记录。然而,LLMs的发展仍面临一些问题,例如从头开始训练模型的高成本以及持续的预训练导致灾难性遗忘等。尽管许多研究已经解决了许多这样的问题,但一个重要而实际的局限是,许多研究过于追求扩大模型规模,而没有全面分析和优化在学习过程中预训练数据的使用,以及在成本效益设置下对这些数据的适当组织和利用。在这项工作中,我们提出了一个具有130亿参数的模型Ziya2,采用LLaMA2作为基础模型,并在7000亿标记上进行了进一步的预训练,我们重点关注预训练技术,并使用数据中心的优化来增强Ziya2在不同阶段的学习过程。实验证明,Ziya2在多个基准测试中明显优于其他模型,特别是与代表性的开源模型相比,结果令人满意。Ziya2(Base)已经在 https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base 和 https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary 上发布。 【引导阅读的问题】 如何通过优化预训练数据的使用和组织方式,在成本效益设置下提升大规模语言模型的性能? 【论文链接】 https://arxiv.org/pdf/2311.03301
打开封面
下载高清视频
观看高清视频
视频下载器
ChatCoder: Chat-based Refine Requirement Improves LLMs' Code Generation
大规模语言模型的训练与优化研究
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
TEQ: Trainable Equivalent Transformation for Quantization of LLMs
TOFU: A Task of Fictitious Unlearning for LLMs
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval
Offline Actor-Critic Reinforcement Learning Scales to Large Models
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refine
Farzi Data: Autoregressive Data Distillation
Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixtu
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
大规模语言模型在多模态音乐理解与生成中的应用
In-Context Principle Learning from Mistakes
Physics-Informed Learning for Multiscale Systems
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Con
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to
分布式注意力机制:长文本处理的高效LLM服务系统
Context-Aware Meta-Learning
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning
In-Context Learning Creates Task Vectors
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
【AI Drive】同源共流:一个优化框架统一与解释图神经网络
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
【AI Drive】Circle Loss:从对相似性优化的统一视角进行深度特征学习
Adversarial Approaches to Bayesian Learning
基于上下文调整的检索增强生成方法
【资讯】安卓uzuy X-增加功能,提升性能/安卓yuzu优化
稳定分数蒸馏:高质量三维生成新方法
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
多模态基础模型研究综述
FreeControl:实现任意文本到图像扩散模型的无训练空间控制
FreeInit:弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性
ReFT: Reasoning with Reinforced Fine-Tuning
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
【AI Drive】带批归一化和权重衰减的深度神经网络的优化过程中的球面运动