TinyLlama：开源小型语言模型的新突破 - 视频下载 Video Downloader

TinyLlama：开源小型语言模型的新突破

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 TinyLlama：开源小型语言模型的新突破
【论文简述】 TinyLlama是一个开源的小型语言模型，它在大约1万亿个标记上进行了约3个周期的预训练。尽管模型规模相对较小，但TinyLlama在一系列下游任务中展现出了卓越的性能，显著超越了现有类似规模的开源语言模型。该模型基于Llama 2的架构和tokenizer，利用了开源社区的贡献，如FlashAttention等，实现了更好的计算效率。TinyLlama的模型检查点和代码已在GitHub上公开，为语言模型研究者提供了一个易于访问的平台。
【论文链接】 https://arxiv.org/abs/2401.02385

打开封面下载高清视频观看高清视频视频下载器

VideoLCM：基于视频潜在一致性模型的高效视频合成方法

《大模型原理与训练实战》重磅上线！【全网首门】体系化大模型训练实战课 | 从0到1构建+训练+优化你的专属大模型！| 预训练+指令微调+蒸馏+推理全流程

小型语言模型的强大能力：TeacherLM-7.1B模型的研究

热门开源项目推荐之TinyLlama

大型语言模型在上下文学习中的可靠性提升：结合监督知识的方法

基于潜在变量推断的训练链式思维提升语言模型推理能力

多任务学习中数据不平衡问题的优化策略：预训练与联合微调

小模型大智慧：TinyGSM助力小规模语言模型在数学推理上超越大规模模型

基于认知树的小型语言模型推理能力提升

图神经网络何时预训练？从数据生成角度探讨

基于LLM的输入输出安全保障模型：Llama Guard在人机对话中的应用

LLM360：推动全透明开源大型语言模型研究

吴恩达同步更新AI课，第45讲：大模型预训练。Pretraining LLMs

大型语言模型生成内容质量自评估提升选择性生成

RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型

Vary: 大型视觉语言模型视觉词汇扩展新方法

多模态基础模型研究综述

重量子克隆：利用大型预训练模型加速小型Transformer训练

LLAMA PRO：基于Transformer块扩展的渐进式大型语言模型

面向大型语言模型的有约束文本生成方法

基于语言模型的知识探测和推理方法

大规模语言模型的训练与优化研究

对比解码提升大型语言模型推理能力

大型语言模型：从训练到推理的全面综述

FreeInit：弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性

语言模型对齐新方法：基于对比不似然训练的判断反馈

基于扩散模型的360度全景图像生成任务

【AI Drive】AAAI 2022：基于对比学习的预训练语言模型剪枝压缩

探索大型语言模型在工业芯片设计中的应用

大规模语言模型的Transformer架构及其批处理技术

安全训练与语言模型的鲁棒性: 对Llama 2-Chat进行潜在微调的风险评估

基于语言、任务和指标的人工智能模型的一致性分析

基于语言模型的理解与规划框架

System 2 Attention (is something you might need too)

解释性语言模型特征发现

注意力满足视角下语言模型事实错误研究

稳定分数蒸馏：高质量三维生成新方法

UFOGen: 一步高效文本到图像生成模型

基于语言引导的3D场景理解与推理

多模态大型语言模型Gemini在常识推理中的表现评估