V
主页
Deepspeed大模型分布式框架精讲
发布人
简单明了的说明白DeepSpeed大模型训练框架为啥用,怎么用以及相关原理
打开封面
下载高清视频
观看高清视频
视频下载器
DeepSpeed ZeRO-3分布式训练模型,权重超过单块GPU显存 #小工蚁
VLLM ——高效GPU训练框架
一行代码激活DeepSpeed,提升ChatGLM3-6B模型训练效率
Megatron-LM技术讲解
大模型训练:MOE模型架构
deepspeed框架-大模型分布式训练与推理
如何配置deepspeed多卡训练大模型
DeepSpeed-Chat 模型训练实战
DeepSpeed 【2】实践 训练Stable Diffusion
77个分布式核心概念,这些搞懂之后就没有你拿不到的offer
Deepspeedchat代码解读
flashattention原理深入分析
微软架构师讲解分布式训练框架Deepspeed原理
知识蒸馏:小模型向大模型学习
大模型幻觉破解方法(贝叶斯序列估计)
DeepSpeed和Megatron如何调用NCCL源码解读,通信后端初始化init_distributed()
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
通义千问大模型全家桶-技术分析
deepspeed分布式并行训练零冗余原理
提示词、RAG、微调哪个会让大模型表现更好?1、实践中如何选择微调、rag、提示词工程 2、提示词工程使用方式 3、RAG VS 微调 4、rag评估框架
分布式训练总结!【大模型与分布式训练】系列第07篇
miniGPT4:多模态图文理解训练
大模型是怎么训起来的?分布式并行框架介绍 #大模型 #分布式并行 #训练
DeepSpeed-FastGen比vLLM推理性能快2倍,SplitFuse策略 #小工蚁
「分布式训练」DDP单机多卡并行代码讲解(含 multiprocessing & torchrun 两种启动方式)
「分布式训练」原理讲解+ 「DDP 代码实现」修改要点
DeepSpeed优化器并行ZeRO1/2/3原理 #大模型 #分布式并行 #训练
分布式训练框架Megatron-LM代码概览 #大模型 #分布式并行 #训练
nlp开发利器——vscode如何debug transformers源码(deepspeed形式)
基于大模型做信息抽取方法介绍
从零开始训练大模型
DeepSpeed:适用于巨大模型的技巧集
streamingLLM:提示词上下文长度超过大模型长度限制怎么办?
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
微调LLM中的魔鬼细节|大型语言模型lora调教指南
动画理解Pytorch 大模型分布式训练技术 DP,DDP,DeepSpeed ZeRO技术
33、完整讲解PyTorch多GPU分布式训练代码编写
【手把手带你实战HuggingFace Transformers-分布式训练篇】Accelerate + Deepspeed
大语言模型LLM基础之Tokenizer完全介绍
ChatGLM 130B大模型训练教训总结