【xinference】（11）：在compshare上使用4090D运行xinf和chatgpt-web，部署GLM-4-9B-Chat大模型，占用显存18G - 视频下载 Video Downloader

【xinference】（11）：在compshare上使用4090D运行xinf和chatgpt-web，部署GLM-4-9B-Chat大模型，占用显存18G

发布人

【xinference】（11）：在compshare上使用4090D运行xinf和chatgpt-web，部署GLM-4-9B-Chat大模型，占用显存18G

glm4-chat新大模型：
https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/summary

脚本地址：
https://gitee.com/fly-llm/xinference-run-llm

打开封面下载高清视频观看高清视频视频下载器

【LocalAI】（6）：在autodl上使用4090部署LocalAIGPU版本，成功运行qwen-1.5-32b大模型，占用显存18G，速度 84t/s

【xinference】（9）：本地使用docker构建环境，一次部署embedding，rerank，qwen多个大模型，成功运行，非常推荐

【xinference】（7）：在autodl上，使用xinference一次部署embedding，rerank，qwen多个大模型，兼容openai的接口协

【LocalAI】（5）：在autodl上使用4090Ti部署LocalAIGPU版本，成功运行qwen-1.5-14b大模型，占用显存8G

【xinference】（14）：在compshare上，使用nvidia-docker方式，成功启动推理框架xinference，并运行大模型，非常简单方便

【AI大模型】使用Ollama+Dify搭建一个专属于自己的知识库！支持多种文件类型，本地部署大模型，效果出奇的好！

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，用vllm优化，增加 --num-gpu 2，速度23 words/s

【大模型研究】（5）：在AutoDL上部署，一键部署DeepSeek-MOE-16B大模型，可以使用FastChat成功部署，显存占用38G，运行效果不错。

【xinference】（15）：在compshare上，使用docker-compose运行xinference和chatgpt-web项目，配置成功！！！

【compshare】（1）：推荐一个GPU按小时租的平台，使用实体机部署，可以方便快速的部署xinf推理框架并提供web展示，部署qwen大模型，特别方便

【大模型研究】（9）：通义金融-14B-Chat-Int4金融大模型部署研究，在autodl上一键部署，解决启动问题，占用显存10G，有非常多的股票专业信息

【xinference】（4）：在autodl上，使用xinference部署sd-turbo模型，可以根据文本生成图片，在RTX3080-20G上耗时1分钟

使用autodl服务器，在A40显卡上运行， Yi-34B-Chat-int4模型，并使用vllm优化加速，显存占用42G，速度18 words/s

【Dify知识库】（10）：Dify0.4.9版，改造支持MySQL，成功接入通义千问-7B-Chat-Int4做对话，本地使用fastchat启动，占6G显存

【ollama】（7）：使用Nvidia Jetson Nano设备，成功运行ollama，运行qwen:0.5b-chat，速度还可以，可以做创新项目了

【大模型研究】（1）：从零开始部署书生·浦语2-20B大模型，使用fastchat和webui部署测试，autodl申请2张显卡，占用显存40G可以运行

【xinference】（6）：在autodl上，使用xinference部署yi-vl-chat和qwen-vl-chat模型，可以使用openai调用成功

【xinference】（16）：在本地CPU上，使用docker-compose运行xinference和chatgpt-web项目，运行0.5B和1.5B

在云主机上使用4090部署，使用fastchat框架成功部署Baichuan2-13B-Chat模型，8bit运行模式，可以进行问答啦！

【Dify知识库】（12）：在autodl上，使用xinference部署chatglm3，embedding，rerank大模型，并在Dify上配置成功

使用llama.cpp项目bin文件运行，glm4-chat-9b大模型，速度不快，建议选择量化小的Q2试试

【candle】（4）：使用rsproxy安装rust环境，使用candle项目，成功运行Qwen1.5-0.5B-Chat模型，修改hf-hub下载地址

【xinference】（12）：目前最全大模型推理框架xinference，发布0.12.2版本，支持qwen2函数调用，0.5，1.5，7b版本都支持

终于弄明白FastChat服务了，本地部署ChatGLM3，BEG模型，可部署聊天接口，web展示和Embedding服务！

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

【xinference】：目前最全大模型推理框架xinference，简单介绍项目，咱们国人开发的推理框架，目前github有3.3k星星

【OrangePi】（2）：香橙派OrangePi AIpro设备，安装xinference框架，运行qwen1.5大模型

【chatglm3】（8）：模型执行速度优化，在4090上使用fastllm框架，运行ChatGLM3-6B模型，速度1.1w tokens/s，真的超级快。

【2024最新】54个大模型实战项目，练完即可就业，从入门到进阶，基础到框架，你想要的全都有，建议码住！超级适合小白入门学习，大模型教程

【ChatGLM3】（6）：使用1个2080Ti-11G版本，运行ChatGLM3-Int8模型，可以正常运行，速度6 words/s，不支持vllm启动

【Dify知识库】（1）：本地环境运行dity+fastchat的ChatGLM3模型，可以使用chat/completions接口调用chatglm3模型

xinference一键实现各种大模型本地部署（包含llm,tts,asr,embedding,rerank等模型）

【ollama】（6）：在本地使用docker-compose启动ollama镜像，对接chatgpt-web服务，配置成功，可以进行web聊天了，配置在简介里

【大模型研究】（6）：在AutoDL上部署，成功部署Mixtral-8x7B大模型，8bit量化，需要77G显存，355G硬盘

【xinference】（10）：在autodl上运行xinf和chatgpt-web配置联动，xinf运行qwen-1.5大模型做api后端

【compshare】（5）：使用UCloud(优刻得)的compshare算力平台，运行stable-diffusion-3-medium-comfyui镜像

【xinference】（5）：在autodl上，使用xinference部署sdxl-turbo模型，效果好太多了，模型的进步效果更好，图像更加细腻

【xinference】（19）：在L40设备上通过Xinference框架，快速部署CogVideoX-5b模型，可以生成6秒视频，速度快一点

【大模型研究】（8）：在AutoDL上部署，一键部署Qwen-1_8B-Chat-Int4量化版，需要2.5G显存，非常适合在智能机器人/边缘计算上部署

使用docker本地运行chatglm3，原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务