百万混合专家模型！

发布人

混合专家模型（Mixture of Experts）以其稀疏性而在基于transformer的大语言模型中重新得到挖掘，随着GShard、Switch Transformer、Mixtral8x7B、DeepSeekMoE等一系列用混合专家策略的大语言模型问世，混合专家模型已经逐渐成为了大语言模型的主流操作，并可以达到SOTA的表现。然而，是否存在“最优”（optimal）的模型设计，即，给定模型的大小，应该设置的专家数、激活的专家数为多少？这仍是开放的问题。因此，这个视频中我们通过对于缩放定律（Scaling Law）的研究，探索2024年基于“细粒度”（fine-grained）的混合专家模型缩放定律，并得出了全新的百万混合专家模型（Mixture of A Million Experts），由Google DeepMind工程师Owen于2024年7月发布。我们将去探讨该模型的动机（motivation）、架构（architecture）和具体细节（details），以及我个人的一些思考和展望。

打开封面下载高清视频观看高清视频视频下载器

百万混合专家模型！

第14章：稳定性

第6章：核方法 （2）再生核希尔伯特空间

第12章：最大熵 （1）信息论基础

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

第13章：条件最大熵 （1）多分类和条件最大熵模型

第12章：最大熵 （2）Fenchel对偶性

机器学习之降维：流形学习（1）

第3章：复杂性 （1）Rademacher复杂度

【纯手写】机器学习理论基础 第1章：引言

第12章：最大熵 （3）密度估计和最大熵模型

【机器学习理论基础】系列终极总结 （1）基本理论

吴恩达大佬又出新课了！《Hugging Face中的开源模型》双语字幕，16集全，建议收藏！-huggingface、开源模型、吴恩达

第9章：多分类 （3）结合型多分类算法

【大模型技术】使用Ollama+Dify搭建一个属于自己的知识库！支持多种文件类型，实现本地部署大模型，真的太好用了！

第9章：多分类 （2）非结合型多分类算法

第3章：复杂性 （2）VC维 第一部分

第4章：模型选择 （3）正则化项和替代损失

第7章：Boosting （1）AdaBoost算法

第2章：PAC学习框架 （1）概率近似正确

机器学习之降维：主成分分析

第8章：在线学习 （2）感知机算法

第4章：模型选择 （2）交叉验证

【Agent2024最新】Agent零基础入门到实战精通，手把手教你搭建企业级Agent智能体，底层原理技术讲解+项目案例解析+附上源码

第7章：Boosting （2）AdaBoost理论 第二部分

【机器学习理论基础】系列终极总结 （2）基本模型

第3章：复杂性 （3）VC维 第二部分

机器学习之降维：流形学习（2）

【多模态+大模型+知识图谱】2024完整版：这绝对是B站最全的教程，论文创新点终于解决了！——人工智能/深度学习/aigc/计算机视觉

第2章：PAC学习框架 （2）泛化界

土妹也开始搞大模型了，这波 AI 大模型不能错过

【纯手写】机器学习理论基础：合集介绍

第4章：模型选择 （1）ERM和SRM

90分钟串讲Attention-Transformer-BERT-GPT

第11章：回归 （3）支持向量回归和LASSO

大模型课程L2: 基于Pytorch手把手从头实现Transformer

第9章：多分类 （1）多分类泛化界

机器学习之数学基础：测度集中！

第7章：Boosting （2）AdaBoost理论 第一部分

第6章：核方法 （1）核函数

第11章：回归 （2）线性回归和岭回归

第6章：核方法（2）再生核希尔伯特空间

第12章：最大熵（1）信息论基础

第13章：条件最大熵（1）多分类和条件最大熵模型

第12章：最大熵（2）Fenchel对偶性

第3章：复杂性（1）Rademacher复杂度

【纯手写】机器学习理论基础第1章：引言

第12章：最大熵（3）密度估计和最大熵模型

【机器学习理论基础】系列终极总结（1）基本理论

第9章：多分类（3）结合型多分类算法

第9章：多分类（2）非结合型多分类算法

第3章：复杂性（2）VC维第一部分

第4章：模型选择（3）正则化项和替代损失

第2章：PAC学习框架（1）概率近似正确

第8章：在线学习（2）感知机算法

第4章：模型选择（2）交叉验证

第7章：Boosting （2）AdaBoost理论第二部分

【机器学习理论基础】系列终极总结（2）基本模型

第3章：复杂性（3）VC维第二部分

第2章：PAC学习框架（2）泛化界

第4章：模型选择（1）ERM和SRM

第11章：回归（3）支持向量回归和LASSO

第9章：多分类（1）多分类泛化界

第7章：Boosting （2）AdaBoost理论第一部分

第6章：核方法（1）核函数

第11章：回归（2）线性回归和岭回归