V
主页
百万混合专家模型!
发布人
混合专家模型(Mixture of Experts)以其稀疏性而在基于transformer的大语言模型中重新得到挖掘,随着GShard、Switch Transformer、Mixtral8x7B、DeepSeekMoE等一系列用混合专家策略的大语言模型问世,混合专家模型已经逐渐成为了大语言模型的主流操作,并可以达到SOTA的表现。然而,是否存在“最优”(optimal)的模型设计,即,给定模型的大小,应该设置的专家数、激活的专家数为多少?这仍是开放的问题。因此,这个视频中我们通过对于缩放定律(Scaling Law)的研究,探索2024年基于“细粒度”(fine-grained)的混合专家模型缩放定律,并得出了全新的百万混合专家模型(Mixture of A Million Experts),由Google DeepMind工程师Owen于2024年7月发布。我们将去探讨该模型的动机(motivation)、架构(architecture)和具体细节(details),以及我个人的一些思考和展望。
打开封面
下载高清视频
观看高清视频
视频下载器
第14章:稳定性
第6章:核方法 (2)再生核希尔伯特空间
第12章:最大熵 (1)信息论基础
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
第13章:条件最大熵 (1)多分类和条件最大熵模型
第12章:最大熵 (2)Fenchel对偶性
机器学习之降维:流形学习(1)
第3章:复杂性 (1)Rademacher复杂度
【纯手写】机器学习理论基础 第1章:引言
第12章:最大熵 (3)密度估计和最大熵模型
【机器学习理论基础】系列终极总结 (1)基本理论
吴恩达大佬又出新课了!《Hugging Face中的开源模型》双语字幕,16集全,建议收藏!-huggingface、开源模型、吴恩达
第9章:多分类 (3)结合型多分类算法
【大模型技术】使用Ollama+Dify搭建一个属于自己的知识库!支持多种文件类型,实现本地部署大模型,真的太好用了!
第9章:多分类 (2)非结合型多分类算法
第3章:复杂性 (2)VC维 第一部分
第4章:模型选择 (3)正则化项和替代损失
第7章:Boosting (1)AdaBoost算法
第2章:PAC学习框架 (1)概率近似正确
机器学习之降维:主成分分析
第8章:在线学习 (2)感知机算法
第4章:模型选择 (2)交叉验证
【Agent2024最新】Agent零基础入门到实战精通,手把手教你搭建企业级Agent智能体,底层原理技术讲解+项目案例解析+附上源码
第7章:Boosting (2)AdaBoost理论 第二部分
【机器学习理论基础】系列终极总结 (2)基本模型
第3章:复杂性 (3)VC维 第二部分
机器学习之降维:流形学习(2)
【多模态+大模型+知识图谱】2024完整版:这绝对是B站最全的教程,论文创新点终于解决了!——人工智能/深度学习/aigc/计算机视觉
第2章:PAC学习框架 (2)泛化界
土妹也开始搞大模型了,这波 AI 大模型不能错过
【纯手写】机器学习理论基础:合集介绍
第4章:模型选择 (1)ERM和SRM
90分钟串讲Attention-Transformer-BERT-GPT
第11章:回归 (3)支持向量回归和LASSO
大模型课程L2: 基于Pytorch手把手从头实现Transformer
第9章:多分类 (1)多分类泛化界
机器学习之数学基础:测度集中!
第7章:Boosting (2)AdaBoost理论 第一部分
第6章:核方法 (1)核函数
第11章:回归 (2)线性回归和岭回归