【chatglm】（9）：使用fastchat和vllm部署chatlgm3-6b模型，并简单的进行速度测试对比。vllm确实速度更快些。

发布人

【chatglm】（9）：使用fastchat和vllm部署chatlgm3-6b模型，并简单的进行速度测试对比。vllm确实速度更快些。

打开封面下载高清视频观看高清视频视频下载器

ChatGLM+Langchain构建本地知识库，只需6G显存，支持实时上传文档

Llama3-70b 大模型用vllm去启动的细微注意事项

如何使用chatglm3+fastgpt做自己的知识库

vllm on ray实现多机推理

手把手教学！使用 vLLM 快速部署 Yi-34B-Chat

通义千问-大模型vLLM推理与原理

如何选择LLM本机推理，部署工具？看看LLM的推荐和统计数据吧

简单fastchat思维导图

【超详细】纯本地部署的FastGPT知识库教程（基于ChatGLM3+m3e+oneapi）

双显卡部署 Yi-34B 大模型 - vLLM + Gradio 踩坑记录

vLLm: 大模型LLM快速推理的神器, llama2秒级完成推理不用再等待

探索开源FastChat 平台，揭秘基于LLM大型语言模型的智能化应用框架！

4060Ti 16G显卡运行chatglm3-6b-32k模型效果

ChatGLM3-6B 对比 Qwen-14B，到底谁更强？

【chatglm3】（7）：大模型训练利器，使用LLaMa-Factory开源项目，对ChatGLM3进行训练，特别方便，支持多个模型，非常方方便

FastChat新版本发布整合vLLM，让大模型推理能力提升10倍

大模型并发加速部署解析当前应用较广的几种并发加速部署方案！

只需 24G 显存，用 vllm 跑起来 Yi-34B 中英双语大模型

【deepseek】（3）：经过我的认真反思，终于把DeepSeeK-Coder-6.7B给运行起来了，使用A40显卡运行速度挺快的。

【chatglm3】（10）：使用fastchat本地部署chatlgm3-6b模型，并配合chatgpt-web的漂亮界面做展示，调用成功，vue的开源项目

vllm-gptq 实现 Qwen 量化模型的加速推理

一句话生成BI图表（Chat2BI、ChatGLM3、function call+code interpreter）

终于弄明白FastChat服务了，本地部署ChatGLM3，BEG模型，可部署聊天接口，web展示和Embedding服务！

DeepSpeed-FastGen比vLLM推理性能快2倍，SplitFuse策略 #小工蚁

VLLM ——高效GPU训练框架

【chatglm3】（8）：模型执行速度优化，在4090上使用fastllm框架，运行ChatGLM3-6B模型，速度1.1w tokens/s，真的超级快。

通义千问模型运行FastChat 发现兼容性问题

PagedAttention(vLLM):更快地推理你的GPT【论文粗读·7】

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，用vllm优化，增加 --num-gpu 2，速度23 words/s

【chatglm3】（4）：如何设计一个知识库问答系统，参考智谱AI的知识库系统，学习设计理念，开源组件

单卡2080Ti跑通义千问32B大模型（ollama和vllm推理框架）

在AutoDL上，使用4090显卡，部署ChatGLM3API服务，并微调AdvertiseGen数据集，完成微调并测试成功！

阿里通义千问Qwen-7b如何运行在FastChat生产环境？

掌握FastChat RESTful API和SDK打造独一无二的人工智能应用 #小工蚁 #fastchat #2openai

用 llama.cpp 跑通 mixtral MoE 模型

VLLM 测试 Mixtral MoE 的 GPTQ 量化版本

【大模型知识库】（2）：开源大模型+知识库方案，docker-compose部署本地知识库和大模型，毕昇+fastchat的ChatGLM3，BGE-zh模型

LightLLM轻量级高性能推理框架和vLLM哪个更强？

【大模型知识库】（3）：本地环境运行flowise+fastchat的ChatGLM3模型，通过拖拽/配置方式实现大模型编程，可以使用completions接口

【Dify知识库】（1）：本地环境运行dity+fastchat的ChatGLM3模型，可以使用chat/completions接口调用chatglm3模型

【chatglm】（9）：使用fastchat和vllm部署chatlgm3-6b模型，并简单的进行速度测试对比。vllm确实速度更快些。

ChatGLM+Langchain构建本地知识库，只需6G显存，支持实时上传文档

Llama3-70b 大模型用vllm去启动的细微注意事项

如何使用chatglm3+fastgpt做自己的知识库

vllm on ray实现多机推理

手把手教学！使用 vLLM 快速部署 Yi-34B-Chat

通义千问-大模型vLLM推理与原理

如何选择LLM本机推理，部署工具？看看LLM的推荐和统计数据吧

简单fastchat思维导图

【超详细】纯本地部署的FastGPT知识库教程（基于ChatGLM3+m3e+oneapi）

双显卡部署 Yi-34B 大模型 - vLLM + Gradio 踩坑记录

vLLm: 大模型LLM快速推理的神器, llama2秒级完成推理不用再等待

探索开源FastChat 平台，揭秘基于LLM大型语言模型的智能化应用框架！

4060Ti 16G显卡运行chatglm3-6b-32k模型效果

ChatGLM3-6B 对比 Qwen-14B，到底谁更强？

【chatglm3】（7）：大模型训练利器，使用LLaMa-Factory开源项目，对ChatGLM3进行训练，特别方便，支持多个模型，非常方方便

FastChat新版本发布整合vLLM，让大模型推理能力提升10倍

大模型并发加速部署 解析当前应用较广的几种并发加速部署方案！

只需 24G 显存，用 vllm 跑起来 Yi-34B 中英双语大模型

【deepseek】（3）：经过我的认真反思，终于把DeepSeeK-Coder-6.7B给运行起来了，使用A40显卡运行速度挺快的。

【chatglm3】（10）：使用fastchat本地部署chatlgm3-6b模型，并配合chatgpt-web的漂亮界面做展示，调用成功，vue的开源项目

vllm-gptq 实现 Qwen 量化模型的加速推理

一句话生成BI图表（Chat2BI、ChatGLM3、function call+code interpreter）

终于弄明白FastChat服务了，本地部署ChatGLM3，BEG模型，可部署聊天接口，web展示和Embedding服务！

DeepSpeed-FastGen比vLLM推理性能快2倍，SplitFuse策略 #小工蚁

VLLM ——高效GPU训练框架

【chatglm3】（8）：模型执行速度优化，在4090上使用fastllm框架，运行ChatGLM3-6B模型，速度1.1w tokens/s，真的超级快。

通义千问模型运行FastChat 发现兼容性问题

PagedAttention(vLLM):更快地推理你的GPT【论文粗读·7】

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，用vllm优化，增加 --num-gpu 2，速度23 words/s

【chatglm3】（4）：如何设计一个知识库问答系统，参考智谱AI的知识库系统，学习设计理念，开源组件

单卡2080Ti跑通义千问32B大模型（ollama和vllm推理框架）

在AutoDL上，使用4090显卡，部署ChatGLM3API服务，并微调AdvertiseGen数据集，完成微调并测试成功！

阿里通义千问Qwen-7b如何运行在FastChat生产环境？

掌握FastChat RESTful API和SDK打造独一无二的人工智能应用 #小工蚁 #fastchat #2openai

用 llama.cpp 跑通 mixtral MoE 模型

VLLM 测试 Mixtral MoE 的 GPTQ 量化版本

【大模型知识库】（2）：开源大模型+知识库方案，docker-compose部署本地知识库和大模型，毕昇+fastchat的ChatGLM3，BGE-zh模型

LightLLM轻量级高性能推理框架 和vLLM哪个更强？

【大模型知识库】（3）：本地环境运行flowise+fastchat的ChatGLM3模型，通过拖拽/配置方式实现大模型编程，可以使用completions接口

【Dify知识库】（1）：本地环境运行dity+fastchat的ChatGLM3模型，可以使用chat/completions接口调用chatglm3模型

大模型并发加速部署解析当前应用较广的几种并发加速部署方案！

LightLLM轻量级高性能推理框架和vLLM哪个更强？