V
主页
TensorRT-LLM的模型量化:实现与性能
发布人
大模型规模呈现指数级别增长,对运行成本和响应速度产生重大挑战! 为解决这一问题,NVIDIA专门推出了TensorRT-LLM,一个用于编译和优化大模型推理的综合程序库。 11月24日新鲜出炉,作者亲临,第一次系统性的介绍!
打开封面
下载高清视频
观看高清视频
视频下载器
第1节:TensorRT-LLM介绍
详解TensorRT的C++/Python高性能部署,实战应用到项目
1.1.1 AI 推理入门必看 | Triton Inference Server 原理入门之框架篇
TensorRT-LLM的总体介绍:昨天、今天和明天
显卡速度翻3倍,AI绘画进入“秒速时代”?Stable Diffusion究极加速插件,NVIDIA TensorRT扩展安装与使用全方位教程
TensorRT 教程 | 基于 8.2.3 版本 | 第一部分
第7节:awq和gptq适配
At least you learn how to ask nicely
Qwen 72B Chat Int4 使用TensorRT-LLM编译后的吞吐能力测试
大模型私有化部署必读:使用TensorRT-LLM推理加速的性能评测及主流GPU表现
第2节:在TensorRT-LLM中体验gpt2
利用 NVIDIA TensorRT-LLM 加速大模型推理
基于TensorRT-LLM提升大模型算力使用效率
TensorRT 教程 | 基于 8.6.1 版本 | 第一部分
我的量化自动交易之路
TensorRT 加速AI推理Hackathon 2023 初赛总结:Stable Diffusion + ControlNet TensorRT 性能优化
NVIDIA 自动驾驶实验室:基于剪枝的AI模型优化
Llama 2 模型结构解析
姚鑫、颜子杰|在NVIDIA NeMo中实现大语言学模型全周期开发
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
25万机器人连续工作20个小时后倒地不起,网友:好像看到996的我
TensorRT 教程 | 基于 8.6.1 版本 | 第二部分
魏英灿、王泽寰|推荐系统的最新优化策略和实践
H200只是前菜!英伟达真正的「核弹」在后面….
季光、陈庾|TensorRT Hackathon 2023 总结|AIGC 及大语言模型推理的典型案例深入解析
在硅谷中体验 AI 驱动的自动驾驶
刘冰、郑鹏|GPU编程和优化-最佳实践分享
【智能硬件】微型旋转立体显示器Tiny volumetric display 全息影像。3D打印
0_CUDA基础语法
ChatGLM3-6B 对比 Qwen-14B,到底谁更强?
[赛前训练营] NVIDIA - 阿里云 AI for Science GPU 黑客松
【技术科普】为什么机器人不能勾选“我不是机器人”?
重磅!NVIDIA即将推出RTX 4090 Dragon中国特供显卡:只屏蔽算力,但仍售12999元?【宅同学】
为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡?
我真的越来越看不懂游戏中的物价了…
英伟达发起AI革命,超级计算机GH 200!
【家底雄厚】100张A800,但是不好意思我们不单出
CUDA 开发者工具教程(三)
王雍、张静蓉|向量数据库的加速策略和实战
通过未来的3D生态系统——OpenUSD来改变3D工作流