V
主页
TinyLlama:开源小型语言模型的新突破
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 TinyLlama:开源小型语言模型的新突破 【论文简述】 TinyLlama是一个开源的小型语言模型,它在大约1万亿个标记上进行了约3个周期的预训练。尽管模型规模相对较小,但TinyLlama在一系列下游任务中展现出了卓越的性能,显著超越了现有类似规模的开源语言模型。该模型基于Llama 2的架构和tokenizer,利用了开源社区的贡献,如FlashAttention等,实现了更好的计算效率。TinyLlama的模型检查点和代码已在GitHub上公开,为语言模型研究者提供了一个易于访问的平台。 【论文链接】 https://arxiv.org/abs/2401.02385
打开封面
下载高清视频
观看高清视频
视频下载器
VideoLCM:基于视频潜在一致性模型的高效视频合成方法
《大模型原理与训练实战》重磅上线!【全网首门】体系化大模型训练实战课 | 从0到1构建+训练+优化你的专属大模型!| 预训练+指令微调+蒸馏+推理全流程
小型语言模型的强大能力:TeacherLM-7.1B模型的研究
热门开源项目推荐之TinyLlama
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
基于潜在变量推断的训练链式思维提升语言模型推理能力
多任务学习中数据不平衡问题的优化策略:预训练与联合微调
小模型大智慧:TinyGSM助力小规模语言模型在数学推理上超越大规模模型
基于认知树的小型语言模型推理能力提升
图神经网络何时预训练?从数据生成角度探讨
基于LLM的输入输出安全保障模型:Llama Guard在人机对话中的应用
LLM360:推动全透明开源大型语言模型研究
吴恩达同步更新AI课,第45讲:大模型预训练。Pretraining LLMs
大型语言模型生成内容质量自评估提升选择性生成
RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型
Vary: 大型视觉语言模型视觉词汇扩展新方法
多模态基础模型研究综述
重量子克隆:利用大型预训练模型加速小型Transformer训练
LLAMA PRO:基于Transformer块扩展的渐进式大型语言模型
面向大型语言模型的有约束文本生成方法
基于语言模型的知识探测和推理方法
大规模语言模型的训练与优化研究
对比解码提升大型语言模型推理能力
大型语言模型:从训练到推理的全面综述
FreeInit:弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性
语言模型对齐新方法:基于对比不似然训练的判断反馈
基于扩散模型的360度全景图像生成任务
【AI Drive】AAAI 2022:基于对比学习的预训练语言模型剪枝压缩
探索大型语言模型在工业芯片设计中的应用
大规模语言模型的Transformer架构及其批处理技术
安全训练与语言模型的鲁棒性: 对Llama 2-Chat进行潜在微调的风险评估
基于语言、任务和指标的人工智能模型的一致性分析
基于语言模型的理解与规划框架
System 2 Attention (is something you might need too)
解释性语言模型特征发现
注意力满足视角下语言模型事实错误研究
稳定分数蒸馏:高质量三维生成新方法
UFOGen: 一步高效文本到图像生成模型
基于语言引导的3D场景理解与推理
多模态大型语言模型Gemini在常识推理中的表现评估