V
主页
transformers源码阅读——mixtral模型解读——MoE实现细节
发布人
MoE-transformers和传统的transformers有什么区别 Mixtral模型是怎么实现MoE的,源码解读
打开封面
下载高清视频
观看高清视频
视频下载器
第二十课:MoE
认识混合专家模型(MoE)
【Mistral模型原理】复现Mixture of Experts(MoE)架构
Mistral + MoE 架构解读
vLLM源码阅读s1——源码介绍
图解llama架构 解读源码实现
transformers源码阅读——入门(提高nlp工程师的工程能力)
transformers源码阅读——如何看懂模型代码(以llama为例)
Llama 2 模型结构解析
【研1基本功 (真的很简单)MoE】混合专家模型—作业:写一个MoELoRA
破解GPT4 - 混合专家模型(MOE)
transformers源码阅读——图解mixtral模型——图解MoE细节
vLLM源码阅读s2——是如何进行离线推理的
LLaMA-MoE:基于参数复用的混合专家模型构建方法探索
transformers源码阅读——llama模型调试
大模型微调新范式:当LoRA遇见MoE(2024.3.2, @Sam多吃青菜)
nlp开发利器——vscode debug nlp大工程(最最最优雅的方式)
transfomers源码阅读——Trainer解读系列1_了解训练流程
transformers二次开发——(定义自己的数据加载器 模型 训练器)bge模型微调流程
nlp开发利器——vscode如何debug transformers源码(deepspeed形式)
Mistral 8x7B:究竟什么是MoE(混合专家)模型
transformers源码阅读——transformers包的文件框架介绍
第十五课:LLaMA
transformers二次开发——bge-reranker模型微调流程
大模型量化是怎么实现的——transformers源码解读
用 llama.cpp 跑通 mixtral MoE 模型
transformers二次开发——为什么要实现自己的sft代码
神秘的MoE模型,是大模型未来的趋势吗
chatglm3源码阅读——吐槽角度
nlp开发利器——vscode愉快的写nlp代码
让Mixtral-8*7B模型运行在16GB显存GPU上 #小工蚁
longlora是怎么实现的——如何在transformers的模型上修改的
transformers二次开发——为什么要实现自己的sentence-embedding训练代码
miniCPM系列S1——技术报告解读(吊打llama2-70b-chat模型?)
transformers源码阅读——gradient_checkpointing详解
【LLM调教指南】大语言模型微调中的魔鬼细节,LoRA高效微调代码精讲!
lora源码解读
强化学习TRL包源码解读S1——reward_Trainer
国内的大模型结构和llama有多相似?
nlp开发利器——vscode如何debug transformers源码