V
主页
京东 11.11 红包
FP8 训练的挑战及最佳实践
发布人
在某些大规模数据处理和深度学习任务中,FP8 相对于BF16具有天然的性能优势。本次分享将从模型精度和训练速度两方面介绍 FP8 在大语言模型训练中的挑战和最佳实践。
打开封面
下载高清视频
观看高清视频
视频下载器
TRT-LLM 最佳部署实践
TensorRT-LLM 中的 Hopper Mixed GEMM 的 CUTLASS 3.x 实现讲解
大模型结合 RAG 构建客服场景自动问答系统
【通义千问2.0】微调之SFT训练
Elliot 《CUDA编程|CUDA Programming Course – High-Performance Computing with GPUs》
NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化
代码实现大模型强化学习(PPO),看这个视频就够了。
【B站第一】清华大佬1000分钟讲完的AI大模型(LLM)入门到实战全套学习教程!整整135集,全干货无废话!还学不会,我退出AI圈!!
MIT《TinyML和高效深度学习计算L5 - 量化|EfficientML.ai Course 2024 Fall MIT 6.5940》豆包
探索长序列并行:Megatron-Core 的 Context Parallelism 解析
5个我每天都离不开的App
综合运用 NVIDIA TAO + RIVA 完成智能问答模型的训练与部署
数字时代建筑行业的元宇宙创新
视觉AI 低代码训练车辆信息检测AI模型
使用语言模型为CogVideoX自动创建图转视频提示,一键懒人工作流
大模型时代的加速计算技术更新
Auto3D 分割助力构建 AI 模型的训练框架
揭秘 Megatron-Core MoE 架构,特性与性能优化
大模型找工作面试,千万别慌,这节课教你如何一周拿5个offer!
甜品卡的极限!老黄刀法背后,谁才是2024年最佳选择?
一天面试了8个AI大模型岗,发现他们都很菜,想给offer都完全给不了
CUDA 开发者工具教程(一)
NVIDIA 最新 GPU 架构和计算系统加速各行各业的工作流在线研讨会
TensorRT 教程 | 基于 8.6.1 版本 | 第一部分
在 BlueField DPU 上实现OVS DPDK
Omniverse中的可变形体与布料仿真
用USD为 Metaverse 设计铺路
NVIDIA AI 加速精讲堂-TensorRT-LLM 应用与部署
NVIDIA 专家面对面技术沙龙|大模型推理专场
音频效果开发利器-NVIDIA Maxine
【中英精校】2024.10.16 | LightRAG:对于 RAG 系统来说,比 GraphRAG 更高效的解决方案?
快速完成NLU中的意图识别任务 - NVIDIA NeMo实战
测试用例自动化智能体开发速战营(一)
暂时可以白嫖!更省钱更灵活的comfyui云端解决方案BizyAir
DBGPT中Tugrah的GraphRAG实战分享:环境配置、Debug及QA构建过程
speech AI summit WP-为全球语言用户解锁语音人工智能技术
打死不买你家显卡:5090核心数提升了一张4070?
黑神话悟空开启光追,需要什么显卡才能满足?
使用Python快速构建基于NVIDIA Riva的智能问答机器人
超详细!解决PC玩鸣潮掉帧的全部办法!