NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化 - 视频下载 Video Downloader

NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化

发布人

TensorRT-LLM不仅包罗丰富的大语言模型（LLM）、支持业界先进的加速算法，还实现了高效的工程优化，真正做到了高性能LLM的“开箱即用”。
这次分享作为“开箱测评”，将从“Hello World”开始，用三五行命令运行自己的大语言模型，体验TensorRT-LLM的使用流程，并介绍LLM性能调优的最佳实践。

打开封面下载高清视频观看高清视频视频下载器

CUDA编程基础入门系列（持续更新）

【纪录片】不负热爱 03 2次元：3次元

深入GPU原理：线程和缓存关系【AI芯片】GPU原理01

详解TensorRT的C++/Python高性能部署，实战应用到项目

TensorRT的介绍与应用

科学界的奥斯克现场谷爱凌&马斯克

B站强推！这可能是唯一能将LLama大模型讲清楚的教程了，LLama系列复现-微调-预训练-应用实例解读，草履虫都能看懂！人工智能/多模态大模型

大模型加速框架哪家强？vllm，lightllm，tensorrt-llm，llama.cpp?

yolov8 TensorRT C++ 部署

第2讲-AI算力

NV架构师讲解GPU是如何工作的？（中文版）

CUDA 编程入门

黄仁勋和马克·扎克伯格探讨 AI 和下一代计算平台

llama.cpp 源码解析-- CUDA版本流程与逐算子详解

NVIDIA 视频加速技术详解之一：GPU 加速视频编解码及 Video Codec SDK

【TensorRT MoE】全网首篇从TensorRT-LLM CUDA MoE kernel角度理解Mixtral 8x7B的推理加速和展望

NVIDIA 数据中心解决方案及行业案例解析

NVIDIA AI 加速精讲堂-TensorRT-LLM 应用与部署

在英伟达官号做了直播技术分享

GPU硬件架构与CUDA如何对应？【AI芯片】GPU架构01

一个例子学习TensorRT推理框架

Qwen2-7B-微调-训练-评估

TensorRT-LLM 中的 Hopper Mixed GEMM 的 CUTLASS 3.x 实现讲解

怎么加快大模型推理？10分钟学懂VLLM内部原理，KV Cache，PageAttention

NVIDIA 专家面对面技术沙龙｜主会全程

大语言模型推理加速

神经网络-量化与部署，进阶之路迟早要越过的大山

基于TensorRT-LLM提升大模型算力使用效率

大模型应用场景分享

大模型量化一网打尽（一）理论基础

通义千问-大模型vLLM推理与原理

金融行业 AI 应用场景分享与 NVIDIA 加速计算解决方案介绍

使用英伟达的 tensorrt-llm 对 qwen 进行加速

第1节：TensorRT-LLM介绍

TensorRT-LLM的模型量化：实现与性能

CUDA实现矩阵乘法的8种优化策略编程介绍

NVIDIA 专家面对面技术沙龙｜大模型推理专场

全网首篇探究GPU内CUDAcore和TensorCore并行计算(下篇)

NV架构师讲解GPU是如何工作的？

TRT-LLM 最佳部署实践