V
主页
NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化
发布人
TensorRT-LLM不仅包罗丰富的大语言模型(LLM)、支持业界先进的加速算法,还实现了高效的工程优化,真正做到了高性能LLM的“开箱即用”。 这次分享作为“开箱测评”,将从“Hello World”开始,用三五行命令运行自己的大语言模型,体验TensorRT-LLM的使用流程,并介绍LLM性能调优的最佳实践。
打开封面
下载高清视频
观看高清视频
视频下载器
【纪录片】不负热爱 03 2次元:3次元
NV架构师讲解GPU是如何工作的?(中文版)
GPU硬件架构与CUDA如何对应?【AI芯片】GPU架构01
CUDA 编程入门
通义千问-大模型vLLM推理与原理
黄仁勋和马克·扎克伯格探讨 AI 和下一代计算平台
B站强推!这可能是唯一能将LLama大模型讲清楚的教程了,LLama系列复现-微调-预训练-应用实例解读,草履虫都能看懂!人工智能/多模态大模型
TensorRT的介绍与应用
第1节:TensorRT-LLM介绍
NVIDIA AI 加速精讲堂-TensorRT-LLM 应用与部署
在英伟达官号做了直播技术分享
NVIDIA 自动驾驶实验室|端到端自动驾驶:鸟瞰图(BEV)
基于TensorRT-LLM提升大模型算力使用效率
大模型应用场景分享
TensorRT-LLM的模型量化:实现与性能
1.1.1 AI 推理入门必看 | Triton Inference Server 原理入门之框架篇
CUDA编程基础入门系列(持续更新)
详解TensorRT的C++/Python高性能部署,实战应用到项目
利用 NVIDIA TensorRT-LLM 加速大模型推理
TensorRT-LLM 中的 Hopper Mixed GEMM 的 CUTLASS 3.x 实现讲解
TensorRT 教程 | 基于 8.6.1 版本 | 第二部分
【李宏毅】2024年公认最好的【LLM大模型】教程!大模型入门到进阶,一套全解决!2024生成式人工智慧-附带课件代码
TRT-LLM 最佳性能实践
TensorRT 教程 | 基于 8.6.1 版本 | 第一部分
黄仁勋和马克·扎克伯格探讨 AI 和下一代计算平台【官方中文字幕】
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
NVIDIA 自动驾驶实验室|利用生成式 AI 增强自动驾驶仿真
使用英伟达的 tensorrt-llm 对 qwen 进行加速
NVIDIA 专家面对面技术沙龙|大模型推理专场
NVIDIA 数据中心解决方案及行业案例解析
2024世界人工智能大会(合集)
NVIDIA 视频加速技术详解之一:GPU 加速视频编解码及 Video Codec SDK
黄仁勋揭示塑造未来的 AI 技术 | NVIDIA GTC 2024 主题演讲
揭秘 Megatron-Core MoE 架构,特性与性能优化
GeForce RTX 4090丨速度穿越
金融行业 AI 应用场景分享与 NVIDIA 加速计算解决方案介绍
NVIDIA 加速 AI 和人形机器人的未来
深入GPU原理:线程和缓存关系【AI芯片】GPU原理01
CUTLASS 2.x 与 3.x 的入门使用
llama3-07 基于 TensorRT-LLM 和 Triton 进行 llama3 模型部署