V
主页
利用 NVIDIA TensorRT-LLM 加速大模型推理
发布人
NVIDIA TensorRT-LLM 简介:产品定位,与原有产品的关系。现支持的模型、主要功能,如 KV-cache,各种量化方法等、性能及 未来路线图。观看 GTC 2024 China AI Day 专场中文演讲,了解 LLM 推理及更多话题:https://www.nvidia.cn/gtc-global/sessions/china-ai-day/?ncid=so-othe-135392
打开封面
下载高清视频
观看高清视频
视频下载器
详解TensorRT的C++/Python高性能部署,实战应用到项目
第1节:TensorRT-LLM介绍
大语言模型推理加速
3-大语言模型的推理
通义千问-大模型vLLM推理与原理
llama3-07 基于 TensorRT-LLM 和 Triton 进行 llama3 模型部署
CUDA编程基础入门系列(持续更新)
【TensorRT MoE】全网首篇从TensorRT-LLM CUDA MoE kernel角度理解Mixtral 8x7B的推理加速和展望
TensorRT-LLM的模型量化:实现与性能
第2节:在TensorRT-LLM中体验gpt2
大模型应用场景分享
大语言模型推理:优化关键技术解析
CUDA编程是如何工作的:NVIDIA官方经典
大模型结合 RAG 构建客服场景自动问答系统
黄仁勋揭示塑造未来的 AI 技术 | NVIDIA GTC 2024 主题演讲
人人都能参与开发的从0到1大模型GPU推理引擎课程
基于 NVIDIA Triton 推理服务器端到端部署 LLM serving
基于GPU的检索增强生成(RAG)
使用英伟达的 tensorrt-llm 对 qwen 进行加速
yolo系列模型的部署、精度对齐与int8量化加速
【扩散模型核心思想讲解】李宏毅2023最新Diffusion Model原理讲解,深入浅出-人工智能
首次揭秘!如何用大模型辅助设计NVIDIA芯片!
基于TensorRT-LLM提升大模型算力使用效率
显卡速度翻3倍,AI绘画进入“秒速时代”?Stable Diffusion究极加速插件,NVIDIA TensorRT扩展安装与使用全方位教程
【保姆级教程】6小时掌握开源大模型本地部署到微调,从硬件指南到ChatGLM3-6B模型部署微调实战|逐帧详解|直达技术底层
大模型并发加速部署 解析当前应用较广的几种并发加速部署方案!
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
NV架构师讲解GPU是如何工作的?
NV架构师讲解CUDA是如何工作的?(英文原版)
TensorRT-LLM的总体介绍:昨天、今天和明天
8张英伟达NVIDIA-A800的GPU服务器,一台180万。
教你如何玩转大模型微调技术
qwen大模型推理速度最快的服务搭建
NVIDIA 视频加速技术详解之三:使用 BMF 加速 GPU 视频处理流水线
深入浅出pytorch
为 NVIDIA Chat with RTX 添加中文 LLM
大语言模型推理:低精度最佳实践
NVIDIA 视频加速技术详解之一:GPU 加速视频编解码及 Video Codec SDK
百川2大语言模型推理加速 对比实验测试,性能提升100倍
通俗易懂-大模型的关键技术之一:旋转位置编码rope (1)