V
主页
1.2 大语言模型LLM训练优化,并行注意力、滑动窗口、增加batchsize单次训练数据量,万卡加速训练MegaScale Scaling Large
发布人
LLM算法优化,万卡训练平台MegaScale,1.1 并行注意力机制( parallel attention),1.2 滑动窗口注意力机制(Sliding window attention (SWA)),1.3 LAMB优化器,为什么增加训练batchsize(单次训练的数据量)可以减少训练时间
打开封面
下载高清视频
观看高清视频
视频下载器
1.1 大规模/万卡集群训练平台MegaScale的挑战、设计原则、考虑因素、出现原因MegaScale: Scaling Large Language
GitHub17.5k,还未出版中英文就全有了!只用笔记本就能构建大语言模型!
【李宏毅】2024年公认最好的【LLM大模型】教程!大模型入门到进阶,一套全解决!2024生成式人工智慧-附带课件代码
【全748集】字节大佬终于把 AI大模型(LLM)讲清楚了!通俗易懂,2024最新内部版,学完即就业!AGI商业化落地创业营,一门非常落地的AI大模型创业课!!
1.10 万卡集群集群容错性能监控 心跳检测 自行诊断 故障恢复
【Github热门】Pytorch源码模板:十万行代码整理,让你轻松掌握骨干网、注意力、Loss等关键技术!入门即精通不是梦!
1.3 万卡分布式训练,ZeRO数据并行优化 通信与数据加载并行
DeepSpeed和Megatron如何调用NCCL源码解读,通信后端初始化init_distributed()
【迄今为止最先进的模型】多名大佬精讲CLIP、BLIP-2、视觉Agent等多模态大模型落地应用!人工智能AI、ChatGPT
1.5 万卡训练 张量并行优化 数据切片计算通信并行 大规模集群
Github霸榜爆火,7天狂揽17.9k标星!还没发布但Github标星17.9k的从0构建大模型神书! --人工智能/深度学习/大模型
阿里大佬耗时6个月终于把AI大模型录成了完整的视频教程,通俗易懂,学完即可入职,挑战年薪百万!
2.1 NCCL拓扑识别感知总览 源码解读
【60分钟】掌握大模型微调训练 涵盖大模型项目整体框架, 参数高效微调方法PEFT 数据 算力 参数量之间关系 大模型GPU原理 lora微调教程
1.4 集合通信算法拓扑构建 binary tree为例(MPI 5.0源码解读NCCL可参考)
1.2 zero分布式数据并行方案 zero1,zero2,zero3
【官方双语】ChatGPT背后是什么模型和原理?详细阐述decoder-only transformer模型!
1.1 数据并行 模型并行 DP DDP Zero分布式并行
[ICLR2024] Skeleton-of-Thought: Prompting Large Language Models for Efficient Pa
1.8 大规模集群大模型训练,网络拥塞控制 ECMP PFC DCQCN NCCL通信超时重传
1.1 RDMA基本原理和优势,以太网socket通信为什么要用户空间拷贝到内核空间
口碑NO.1!给想学LLM大模型的人安利一个神仙教程,带你一步步从零构建自己的大模型!-神经网络/深度学习/大语言模型
Aligner: 一种基于残差思想的大语言模型对齐器(组会分享)
1.7 大规模集群训练、通信初始化优化、网络拓扑
我在B站上大学!【完整版-麻省理工-微积分重点】全18讲!学数学不看的微积分课程,看完顺滑一整年。_人工智能数学基础/机器学习/微积分/麻省理工/高等数学
【100集全】清华团队出品的大模型基础教程来了!120个小时彻底讲透大模型(LLM)真的通俗易懂!建议收藏!(人工智能、深度学习、机器学习、神经网络、图像处理)
《智能计算系统-从深度学习到大模型 第2版》第九章-大模型设计系统
【大模型最优算力分配】解析大模型训练中的Scaling Laws:数据量 参数量 算力之间的最优分配,AI大模型领域关键指导法则,结合llama模型实战讲解!
单卡 4090 部署智谱 GLM-4-9B-Chat,30s 极速体验!
1.3 Zero++分布式并行 数据并行 ZeRO++: Extremely Efficient Collective Communication for
Transformer结合U-Net登上Nature子刊! 最新研究,精度与效率齐飞
徒手实现循环神经网络--自然语言处理的基本要素
1.5 split bintree集合通信算法broadcast为例(MPI OpenMPI 5.0源码解读NCCL可参考)
1.6 大规模训练数据加载优化,消除多余加载器,数据加载通信并行,万卡集群MegaScale
强到离谱!解决Transformer的根本缺陷,2024年最热门论文之CoPE位置编码方法:所有大模型都能获得巨大改进!LLM
1.1 NCCL官网案例源码详解One Device per Process or Thread
【上海交通大学】最新教程--动手学大模型,新手可冲!
十分钟编写大模型应用7:AI自动分析Excel数据
1.2 BookSim2源码解读1:NoC片上网络模拟 核心函数调用逻辑
1.3 NCCL通信器初始化ncclCommInitRank()源码解读