V
主页
大语言模型推理加速
发布人
当我们探讨人工智能的众多领域中,大语言模型堪称其中最具前瞻性和挑战性的领域之一。其依赖于海量数据的训练,展现出优越的知识检索能力,在许多领域引起了广泛的关注。然而动辄数十亿,数百亿参数的模型对于推理而言是代价高昂的。 为此商汤高性能计算团队设计并实现了 PPL.LLM 框架为大语言模型提供模型推理加速服务,本期视频将就大语言模型推理中的一些常见问题进行解答,并介绍推理服务过程中的许多细节优化问题,欢迎对此话题感兴趣的同学进行观看,如果问题请通过微信号,QQ群,github与我们取得联系: QQ群:627853444 github: https://github.com/openppl-public/ppl.nn.llm 资料连接:https://pan.baidu.com/s/1hKlrHYe0BviQUopY3hUJ1g?pwd=3mv8 提取码:3mv8
打开封面
下载高清视频
观看高清视频
视频下载器
通义千问-大模型vLLM推理与原理
大模型量化一网打尽(一)理论基础
大模型时代必学!商汤大佬一小时精讲大语言模型推理加速实战,高性能LLM推理框架及细节优化全详解!
大语言模型推理:优化关键技术解析
如何加速大语言模型推理?万字长文综述大语言模型高效推理技术
CUDA编程基础入门系列(持续更新)
大模型技术栈全览
LLM推理加速新范式!推测解码(Speculative Decoding)最新综述
大模型推理优化策略(一)显存优化
14-大模型训练和推理加速技术
3-大语言模型的推理
利用 NVIDIA TensorRT-LLM 加速大模型推理
【vLLM】个人视角畅谈大模型推理优化的挑战、现有工作和未来展望
大模型时代必学!商汤科技大佬亲授大语言模型推理加速,令人茅塞顿开!
【强推】超详细讲解:大模型推理加速方法综述:1.各类魔改Transformer优化 2.量化技术 3.推理加速技术和显存优化-卢菁博士授课
大模型计算加速技术
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
Qwen大模型是公认的推理速度慢,一定要懂得的推理加速框架,不再浪费你的计算资源
大模型并发加速部署 解析当前应用较广的几种并发加速部署方案!
【18】大模型推理vs.训练的相同与不同
yolo系列模型的部署、精度对齐与int8量化加速
大模型时代必学!商汤大佬一小时就教会了我大语言模型推理加速,高性能LLM推理框架及细节优化全详解!通俗易懂学不会你来找我!(人工智能/大模型)
大模型推理优化策略(四)解码加速
模型量化加速
大模型推理需要多大的显存? #大模型 #AI系统 #推理 #显存
神经网络-量化与部署,进阶之路迟早要越过的大山
大语言模型量化简介
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
Quantization aware training(神经网络量化训练)
Llama 2 模型结构解析
自制大模型推理框架-KVCache动手实现-秋招快人一步
vLLm: 大模型LLM快速推理的神器, llama2秒级完成推理不用再等待
如何知道一个大模型在推理和训练时需要多少显存?
【手撕LLM面试题系列】大模型推理优化
神经网络加速基础知识
1. 量化流程
详解TensorRT的C++/Python高性能部署,实战应用到项目
使用Profiler来分析神经网络性能
Layerwise Equalization(跨层权重均衡)
PPQ使用教程