V
主页
TensorRT-LLM的总体介绍:昨天、今天和明天
发布人
大模型规模呈现指数级别增长,对运行成本和响应速度产生重大挑战! 为解决这一问题,NVIDIA专门推出了TensorRT-LLM,一个用于编译和优化大模型推理的综合程序库。 11月24日新鲜出炉,作者亲临,第一次系统性的介绍!
打开封面
下载高清视频
观看高清视频
视频下载器
NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化
第1节:TensorRT-LLM介绍
TensorRT-LLM的模型量化:实现与性能
详解TensorRT的C++/Python高性能部署,实战应用到项目
1.1.1 AI 推理入门必看 | Triton Inference Server 原理入门之框架篇
基于TensorRT-LLM提升大模型算力使用效率
TensorRT 教程 | 基于 8.6.1 版本 | 第一部分
使用英伟达的 tensorrt-llm 对 qwen 进行加速
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
CUDA编程基础入门系列(持续更新)
利用 NVIDIA TensorRT-LLM 加速大模型推理
大模型私有化部署必读:使用TensorRT-LLM推理加速的性能评测及主流GPU表现
CUDA 开发者工具教程(一)
大模型应用场景分享
CUDA编程是如何工作的:NVIDIA官方经典
大语言模型推理:优化关键技术解析
llama3-07 基于 TensorRT-LLM 和 Triton 进行 llama3 模型部署
Copy Is All You Need (Tencent 2023)
【扩散模型核心思想讲解】李宏毅2023最新Diffusion Model原理讲解,深入浅出-人工智能
MONAI VISTA 医学图像标注分割模型
NVIDIA 自动驾驶实验室:基于剪枝的AI模型优化
刘冰、郑鹏|GPU编程和优化-最佳实践分享
季光、陈庾|TensorRT Hackathon 2023 总结|AIGC 及大语言模型推理的典型案例深入解析
使用 NVIDIA IGX Orin 开发者套件在边缘部署大语言模型
通用场景描述(OpenUSD):自定义Schema
显卡速度翻3倍,AI绘画进入“秒速时代”?Stable Diffusion究极加速插件,NVIDIA TensorRT扩展安装与使用全方位教程
NVIDIA现场形象展示CPU和GPU工作原理上的区别
炼丹炉?RTX 2080Ti魔改44g显存
超强动画,深入浅出解释Transformer原理!这可能是我看到唯一一个用动画讲解Transformer原理的教程!真的通俗易懂!——(人工智能、神经网络)
Grand Theft Auto VI 预告片 1
NVIDIA:中国特供4090-D可以不?美国商务部:不行! | 微软AI助手升级到GPT-4-Turbo 【2023.12.6人工智能与科技资讯】
为什么还是有很多傻der源源不断地涌入计算机视觉?
让GPT4看图猜成语,他给我张图把我难倒了
[赛前训练营] NVIDIA - 阿里云 AI for Science GPU 黑客松
[LLM+场景生成]上交大,上海AI实验室,CMU,清华提出ChatSim,使用LLM生成大规模场景,交互式编辑模拟生成自动驾驶各种情况,生成高保真度场景视频
通过未来的3D生态系统——OpenUSD来改变3D工作流
大模型训练需要多少GPU?大模型显存怎么算? #大模型 #AI系统
IBM全新量子计算机震撼整个行业!
Titan XP的算力放到现在跑ai丝毫不差,帕斯卡架构的卡皇。
从2013年开始每周定投10美金微软、出乎你的意料