大语言模型推理加速 - 视频下载 Video Downloader

大语言模型推理加速

发布人

当我们探讨人工智能的众多领域中，大语言模型堪称其中最具前瞻性和挑战性的领域之一。其依赖于海量数据的训练，展现出优越的知识检索能力，在许多领域引起了广泛的关注。然而动辄数十亿，数百亿参数的模型对于推理而言是代价高昂的。
为此商汤高性能计算团队设计并实现了 PPL.LLM 框架为大语言模型提供模型推理加速服务，本期视频将就大语言模型推理中的一些常见问题进行解答，并介绍推理服务过程中的许多细节优化问题，欢迎对此话题感兴趣的同学进行观看，如果问题请通过微信号，QQ群，github与我们取得联系：

QQ群：627853444
github: https://github.com/openppl-public/ppl.nn.llm
资料连接：https://pan.baidu.com/s/1hKlrHYe0BviQUopY3hUJ1g?pwd=3mv8
提取码：3mv8

打开封面下载高清视频观看高清视频视频下载器

通义千问-大模型vLLM推理与原理

大模型量化一网打尽（一）理论基础

大模型时代必学！商汤大佬一小时精讲大语言模型推理加速实战，高性能LLM推理框架及细节优化全详解！

大语言模型推理：优化关键技术解析

如何加速大语言模型推理？万字长文综述大语言模型高效推理技术

CUDA编程基础入门系列（持续更新）

大模型技术栈全览

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

大模型推理优化策略（一）显存优化

14-大模型训练和推理加速技术

3-大语言模型的推理

利用 NVIDIA TensorRT-LLM 加速大模型推理

【vLLM】个人视角畅谈大模型推理优化的挑战、现有工作和未来展望

大模型时代必学！商汤科技大佬亲授大语言模型推理加速，令人茅塞顿开！

【强推】超详细讲解：大模型推理加速方法综述：1.各类魔改Transformer优化 2.量化技术 3.推理加速技术和显存优化-卢菁博士授课

大模型计算加速技术

怎么加快大模型推理？10分钟学懂VLLM内部原理，KV Cache，PageAttention

Qwen大模型是公认的推理速度慢，一定要懂得的推理加速框架，不再浪费你的计算资源

大模型并发加速部署解析当前应用较广的几种并发加速部署方案！

【18】大模型推理vs.训练的相同与不同

yolo系列模型的部署、精度对齐与int8量化加速

大模型时代必学！商汤大佬一小时就教会了我大语言模型推理加速，高性能LLM推理框架及细节优化全详解！通俗易懂学不会你来找我！（人工智能/大模型）

大模型推理优化策略（四）解码加速

模型量化加速

大模型推理需要多大的显存？ #大模型 #AI系统 #推理 #显存

神经网络-量化与部署，进阶之路迟早要越过的大山

大语言模型量化简介

llama.cpp 源码解析-- CUDA版本流程与逐算子详解

Quantization aware training(神经网络量化训练)

Llama 2 模型结构解析

自制大模型推理框架-KVCache动手实现-秋招快人一步

vLLm: 大模型LLM快速推理的神器, llama2秒级完成推理不用再等待

如何知道一个大模型在推理和训练时需要多少显存？

【手撕LLM面试题系列】大模型推理优化

神经网络加速基础知识

1. 量化流程

详解TensorRT的C++/Python高性能部署，实战应用到项目

使用Profiler来分析神经网络性能

Layerwise Equalization(跨层权重均衡)

PPQ使用教程