【Dify知识库】（12）：在autodl上，使用xinference部署chatglm3，embedding，rerank大模型，并在Dify上配置成功 - 视频下载 Video Downloader

【Dify知识库】（12）：在autodl上，使用xinference部署chatglm3，embedding，rerank大模型，并在Dify上配置成功

发布人

【Dify知识库】（12）：在autodl上，使用xinference部署chatglm3，embedding，rerank大模型，并在Dify上配置成功

https://gitee.com/fly-llm/xinference-run-llm
经测试可以部署成功三个模型：

xinference launch --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization 8-bit

xinference launch --model-name bge-large-zh --model-type embedding

xinference launch --model-name bge-reranker-large --model-type rerank

打开封面下载高清视频观看高清视频视频下载器

【xinference】（9）：本地使用docker构建环境，一次部署embedding，rerank，qwen多个大模型，成功运行，非常推荐

【Dify知识库】（11）：Dify0.4.9改造支持MySQL，成功接入yi-6b 做对话，本地使用fastchat启动，占8G显存，完成知识库配置

【大模型研究】（9）：通义金融-14B-Chat-Int4金融大模型部署研究，在autodl上一键部署，解决启动问题，占用显存10G，有非常多的股票专业信息

【xinference】（3）：在autodl上，使用xinference部署whisper-tiny音频模型，并成功将语音转换成文本

【Dify知识库】（3）：开源大模型+知识库方案，使用Dify配置智谱AI的key，可以进行聊天和知识库问答，效果更好。

【Dify知识库】（1）：本地环境运行dity+fastchat的ChatGLM3模型，可以使用chat/completions接口调用chatglm3模型

【Dify知识库】（2）：开源大模型+知识库方案，Dify+fastchat的BGE模型，可以使用embedding接口对知识库进行向量化，绑定聊天应用

【xinference】（6）：在autodl上，使用xinference部署yi-vl-chat和qwen-vl-chat模型，可以使用openai调用成功

【chatglm3】（7）：大模型训练利器，使用LLaMa-Factory开源项目，对ChatGLM3进行训练，特别方便，支持多个模型，非常方方便

【xinference】（4）：在autodl上，使用xinference部署sd-turbo模型，可以根据文本生成图片，在RTX3080-20G上耗时1分钟

【xinference】（7）：在autodl上，使用xinference一次部署embedding，rerank，qwen多个大模型，兼容openai的接口协

【LocalAI】（6）：在autodl上使用4090部署LocalAIGPU版本，成功运行qwen-1.5-32b大模型，占用显存18G，速度 84t/s

【xinference】（5）：在autodl上，使用xinference部署sdxl-turbo模型，效果好太多了，模型的进步效果更好，图像更加细腻

【chatglm3】（4）：如何设计一个知识库问答系统，参考智谱AI的知识库系统，学习设计理念，开源组件

【大模型研究】（6）：在AutoDL上部署，成功部署Mixtral-8x7B大模型，8bit量化，需要77G显存，355G硬盘

15分钟手把手教你在RAG中如何选择合适的embedding模型！附解析代码！

【chatglm3】（10）：使用fastchat本地部署chatlgm3-6b模型，并配合chatgpt-web的漂亮界面做展示，调用成功，vue的开源项目

【Dify知识库】（9）：使用Docker镜像打补丁方式，解决Dify0.4.7版本，支持MySQL数据库。解决统计查询问题，演示Dify0.4.7版本功能

在AutoDL上，使用4090显卡，部署ChatGLM3API服务，并微调AdvertiseGen数据集，完成微调并测试成功！

【大模型研究】（7）：在AutoDL上部署，一键部署最新的chatglm3-6b，8bit量化需要8G内存，发现下载需要48G硬盘了，但是模型只有12G

【LocalAI】（7）：在autodl上使用4090D部署，成功部署localai-cuda-12的二进制文件，至少cuda版本是12.4才可以，运行qwen

【Dify知识库】（5）：Dify知识库切换Postgres数据库成MySQL数据库，解决UUID问题，可以注册登陆成功

【LocalAI】（4）：在autodl上使用3080Ti部署LocalAIGPU版本，成功运行qwen-1.5-7b大模型，速度特别快，特别依赖cuda版本

【大模型研究】（5）：在AutoDL上部署，一键部署DeepSeek-MOE-16B大模型，可以使用FastChat成功部署，显存占用38G，运行效果不错。

【大模型研究】（10）：在autodl上部署语音模型，测试语音识别和语音合成，非常简单方便就测试成功了，机器人语音交互解方案有了

【ChatGLM3】（6）：使用1个2080Ti-11G版本，运行ChatGLM3-Int8模型，可以正常运行，速度6 words/s，不支持vllm启动

【xinference】：目前最全大模型推理框架xinference，简单介绍项目，咱们国人开发的推理框架，目前github有3.3k星星

B站强推！手把手教你如何选取RAG中的embedding模型，模型讲解+代码解析，看完就能学明白！LLM大模型_RAG_大模型微调_多模态

【chatglm3】（8）：模型执行速度优化，在4090上使用fastllm框架，运行ChatGLM3-6B模型，速度1.1w tokens/s，真的超级快。

【Dify知识库】（6）：Dify知识库切换Postgres数据库成MySQL数据库，解决TIME ZONE SQL 查询问题，代码已经更新

【LocalAI】（5）：在autodl上使用4090Ti部署LocalAIGPU版本，成功运行qwen-1.5-14b大模型，占用显存8G

【xinference】（14）：在compshare上，使用nvidia-docker方式，成功启动推理框架xinference，并运行大模型，非常简单方便

【xinference】（8）：在autodl上，使用xinference部署qwen1.5大模型，速度特别快，同时还支持函数调用，测试成功！

【xinference】（11）：在compshare上使用4090D运行xinf和chatgpt-web，部署GLM-4-9B-Chat大模型，占用显存18G

【大模型知识库】（1）：设计开源项目，docker部署mysql，seilisearch，milvus，fastchat的ChatGLM3，BGE-zh模型

【LocalAI】（12）：本地使用CPU运行LocalAI，piper语音模型已经切换到了hugging faces上了，测试中文语音包成功！

【ollama】（4）：在autodl中安装ollama工具，配置环境变量，修改端口，使用RTX 3080 Ti显卡，测试coder代码生成大模型

终于弄明白FastChat服务了，本地部署ChatGLM3，BEG模型，可部署聊天接口，web展示和Embedding服务！

特别推荐！在modelscope上可以使用免费的CPU和限时的GPU啦，成功安装xinference框架，并部署qwen-1.5大模型，速度7 tokens/s

【大模型研究】（8）：在AutoDL上部署，一键部署Qwen-1_8B-Chat-Int4量化版，需要2.5G显存，非常适合在智能机器人/边缘计算上部署