V
主页
双显卡部署 Yi-34B 大模型 - vLLM + Gradio 踩坑记录
发布人
使用两个 3080ti 部署 Yi-34B int4 版本,还是踩了不少坑,这里做一下记录。一步步详细复现和代码见 http://t.csdnimg.cn/OFRvs
打开封面
下载高清视频
观看高清视频
视频下载器
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,用vllm优化,增加 --num-gpu 2,速度23 words/s
DeepSpeed-FastGen比vLLM推理性能快2倍,SplitFuse策略 #小工蚁
只需 24G 显存,用 vllm 跑起来 Yi-34B 中英双语大模型
2080Ti跑70B大模型!上交新框架让LLM推理增速11倍,一经发布引爆业界
【chatglm】(9):使用fastchat和vllm部署chatlgm3-6b模型,并简单的进行速度测试对比。vllm确实速度更快些。
通义千问-大模型vLLM推理与原理
ollama vs vllm - 开启并发之后的 ollama 和 vllm 相比怎么样?
使用autodl服务器,RTX 3090 * 3 显卡上运行, Yi-34B-Chat模型,显存占用60G
大模型推理 NvLink 桥接器有用吗|双卡 A6000 测试一下
Yi-VL-34B 多模态大模型 - 用两张 A40 显卡跑起来
2080Ti部署YI-34B大模型 xinference-oneapi-fastGPT本地知识库使用指南
台式机设置双显卡教程,看完视频就能学会啦!!
vLLm: 大模型LLM快速推理的神器, llama2秒级完成推理不用再等待
GPT-4 All 免费开源!本地部署,无需GPU、可离线使用!搭建私人专属的 LLM 大语言模型聊天机器人!! | 零度解说
【穷训】2W服务器训练7B模型
手把手教学!使用 vLLM 快速部署 Yi-34B-Chat
Qwen-VL看图说话 2080Ti 11G显存 xinference部署多模态大模型
如何微调开源Yi-34B成为Open LLM排名前三模型 #小工蚁
写小说神器-中文小说模型 RWKV-4-Pile-7B-EngChn-testNovel-ctx2048
轻松搭建本地大模型 Web 交互界面 - Ollama + Open WebUI
电脑双显卡怎么交火?需要注意哪些细节?
Yi-34B(4):使用4个2080Ti显卡11G版本,运行Yi-34B模型,5年前老显卡是支持的,可以正常运行,速度 21 words/s
PagedAttention(vLLM):更快地推理你的GPT【论文粗读·7】
大模型推理 A40 vs A6000 谁更强 - 对比 Yi-34B 的单、双卡推理性能
C-Eval 大语言模型评测基准- 用 LM Evaluation Harness + vLLM 跑起来
Yi-6B-Chat 已经开源,但效果如何?
使用autodl服务器,在A40显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度18 words/s
VLLM 测试 Mixtral MoE 的 GPTQ 量化版本
2080Ti-P106 异构多显卡/多GPU 部署 CodeLlama-70B-Instruct XInference搭建本地代码助手/解释器
【AI大模型体验测评系列01】Mixtral-8x7B-Instruct在M1 Pro 32G上的推理速度测试
llama.cpp + A40 显卡运行 Mixtral 8x7B MoE 量化模型推理速度记录
不用安装,一键克隆运行大模型啦 - 在云 GPU 上把 ollama 和 open webui 跑起来
无内容审查(NSFW)大语言模型Yi-34B-Chat蒸馏版测试,RolePlay,《天龙八部》马夫人康敏,本地GPU,CPU运行
GLM4 9B - 环境准备和 vllm 部署
最便宜的48GB显存运算卡-RTX8000
用 llama.cpp 跑通 mixtral MoE 模型
如何知道一个大模型在推理和训练时需要多少显存?
组装新电脑!双显卡!
VLLM ——高效GPU训练框架