V
主页
NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化
发布人
TensorRT-LLM不仅包罗丰富的大语言模型(LLM)、支持业界先进的加速算法,还实现了高效的工程优化,真正做到了高性能LLM的“开箱即用”。 这次分享作为“开箱测评”,将从“Hello World”开始,用三五行命令运行自己的大语言模型,体验TensorRT-LLM的使用流程,并介绍LLM性能调优的最佳实践。
打开封面
下载高清视频
观看高清视频
视频下载器
CUDA编程基础入门系列(持续更新)
【纪录片】不负热爱 03 2次元:3次元
深入GPU原理:线程和缓存关系【AI芯片】GPU原理01
详解TensorRT的C++/Python高性能部署,实战应用到项目
TensorRT的介绍与应用
科学界的奥斯克现场谷爱凌&马斯克
B站强推!这可能是唯一能将LLama大模型讲清楚的教程了,LLama系列复现-微调-预训练-应用实例解读,草履虫都能看懂!人工智能/多模态大模型
大模型加速框架哪家强?vllm,lightllm,tensorrt-llm,llama.cpp?
yolov8 TensorRT C++ 部署
第2讲-AI算力
NV架构师讲解GPU是如何工作的?(中文版)
CUDA 编程入门
黄仁勋和马克·扎克伯格探讨 AI 和下一代计算平台
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
NVIDIA 视频加速技术详解之一:GPU 加速视频编解码及 Video Codec SDK
【TensorRT MoE】全网首篇从TensorRT-LLM CUDA MoE kernel角度理解Mixtral 8x7B的推理加速和展望
NVIDIA 数据中心解决方案及行业案例解析
NVIDIA AI 加速精讲堂-TensorRT-LLM 应用与部署
在英伟达官号做了直播技术分享
GPU硬件架构与CUDA如何对应?【AI芯片】GPU架构01
一个例子学习TensorRT推理框架
Qwen2-7B-微调-训练-评估
TensorRT-LLM 中的 Hopper Mixed GEMM 的 CUTLASS 3.x 实现讲解
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
NVIDIA 专家面对面技术沙龙|主会全程
大语言模型推理加速
神经网络-量化与部署,进阶之路迟早要越过的大山
基于TensorRT-LLM提升大模型算力使用效率
大模型应用场景分享
大模型量化一网打尽(一)理论基础
通义千问-大模型vLLM推理与原理
金融行业 AI 应用场景分享与 NVIDIA 加速计算解决方案介绍
使用英伟达的 tensorrt-llm 对 qwen 进行加速
第1节:TensorRT-LLM介绍
TensorRT-LLM的模型量化:实现与性能
CUDA实现矩阵乘法的8种优化策略编程介绍
NVIDIA 专家面对面技术沙龙|大模型推理专场
全网首篇探究GPU内CUDAcore和TensorCore并行计算(下篇)
NV架构师讲解GPU是如何工作的?
TRT-LLM 最佳部署实践