【LocalAI】（4）：在autodl上使用3080Ti部署LocalAIGPU版本，成功运行qwen-1.5-7b大模型，速度特别快，特别依赖cuda版本 - 视频下载 Video Downloader

【LocalAI】（4）：在autodl上使用3080Ti部署LocalAIGPU版本，成功运行qwen-1.5-7b大模型，速度特别快，特别依赖cuda版本

发布人

【LocalAI】（4）：在autodl上使用3080Ti部署LocalAIGPU版本，成功运行qwen-1.5-7b大模型，速度特别快，特别依赖cuda版本

终于研究明白了，gitee代码：
https://gitee.com/fly-llm/localai-run-llm

打开封面下载高清视频观看高清视频视频下载器

【xinference】（9）：本地使用docker构建环境，一次部署embedding，rerank，qwen多个大模型，成功运行，非常推荐

【xinference】（8）：在autodl上，使用xinference部署qwen1.5大模型，速度特别快，同时还支持函数调用，测试成功！

【LocalAI】（5）：在autodl上使用4090Ti部署LocalAIGPU版本，成功运行qwen-1.5-14b大模型，占用显存8G

【LocalAI】（3）：超级简单！在linux上使用一个二进制文件，成功运行embeddings和qwen-1.5大模型，速度特别快，有gitee配置说明

【LocalAI】（7）：在autodl上使用4090D部署，成功部署localai-cuda-12的二进制文件，至少cuda版本是12.4才可以，运行qwen

【xinference】（7）：在autodl上，使用xinference一次部署embedding，rerank，qwen多个大模型，兼容openai的接口协

【LocalAI】（6）：在autodl上使用4090部署LocalAIGPU版本，成功运行qwen-1.5-32b大模型，占用显存18G，速度 84t/s

【ollama】（5）：在本地使用docker-compose启动ollama镜像，并下载qwen-0.5b模型，速度飞快

【LocalAI】（9）：本地使用CPU运行LocalAI，一次运行4个大模型，embedding模型，qwen-1.5-05b模型，生成图模型，语音转文字模型

【ollama】（7）：使用Nvidia Jetson Nano设备，成功运行ollama，运行qwen:0.5b-chat，速度还可以，可以做创新项目了

【AI大模型】使用Ollama+Dify搭建一个专属于自己的知识库！支持多种文件类型，本地部署大模型，效果出奇的好！

【deepseek】（2）：使用3080Ti显卡，fastchat运行deepseek-coder-6.7b-instruct模型，出现死循环EOT的BUG

【candle】（3）：安装rust环境，使用GPU进行加速，成功运行qwen的0.5b，4b，7b模型，搭建rust环境，配置candle，下使用hf-mir

【candle】（4）：使用rsproxy安装rust环境，使用candle项目，成功运行Qwen1.5-0.5B-Chat模型，修改hf-hub下载地址

【ollama】（2）：在linux搭建环境，编译ollama代码，测试qwen大模型，本地运行速度飞快，本质上是对llama.cpp 项目封装

【LocalAI】（10）：在autodl上编译embeddings.cpp项目，转换bge-base-zh-v1.5模型成ggml格式，本地运行main成功

特别推荐！在modelscope上可以使用免费的CPU和限时的GPU啦，成功安装xinference框架，并部署qwen-1.5大模型，速度7 tokens/s

【AI大模型】使用Ollama+FastGPT搭建一个自己的知识库！支持多种文件类型，本地部署大模型，开源免费使用，效果出奇的好！

【Dify知识库】（12）：在autodl上，使用xinference部署chatglm3，embedding，rerank大模型，并在Dify上配置成功

【LocalAI】（12）：本地使用CPU运行LocalAI，piper语音模型已经切换到了hugging faces上了，测试中文语音包成功！

【compshare】（1）：推荐一个GPU按小时租的平台，使用实体机部署，可以方便快速的部署xinf推理框架并提供web展示，部署qwen大模型，特别方便

【ai技术】（4）：在树莓派4上，使用ollama部署qwen0.5b大模型+chatgptweb前端界面，搭建本地大模型聊天工具，速度飞快

【大模型研究】（9）：通义金融-14B-Chat-Int4金融大模型部署研究，在autodl上一键部署，解决启动问题，占用显存10G，有非常多的股票专业信息

【ollama】（4）：在autodl中安装ollama工具，配置环境变量，修改端口，使用RTX 3080 Ti显卡，测试coder代码生成大模型

【LocalAI】（11）：本地使用CPU运行LocalAI，一次运行5个能力，embedding模型，qwen-1.5-05b模型，生成图模型，语音转文字互转

【大模型研究】（5）：在AutoDL上部署，一键部署DeepSeek-MOE-16B大模型，可以使用FastChat成功部署，显存占用38G，运行效果不错。

【Tauri】（1）：使用Tauri1.5版本，进行桌面应用开发，在windows，linux进行桌面GUI应用程序开发，可以打包成功，使用 vite 最方便

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，用vllm优化，增加 --num-gpu 2，速度23 words/s

【fastllm】学习框架，本地运行，速度还可以，可以成功运行chatglm2模型

【OrangePi】（2）：香橙派OrangePi AIpro设备，安装xinference框架，运行qwen1.5大模型

【xinference】（6）：在autodl上，使用xinference部署yi-vl-chat和qwen-vl-chat模型，可以使用openai调用成功

【candle】（2）：使用hf-mirror镜像下载TheBloke/Llama-2-7B-GGML的q4_0.bin文件，并设置HF_HOME运行

在AutoDL上，使用4090显卡，部署ChatGLM3API服务，并微调AdvertiseGen数据集，完成微调并测试成功！

【大模型研究】（6）：在AutoDL上部署，成功部署Mixtral-8x7B大模型，8bit量化，需要77G显存，355G硬盘

【xinference】（15）：在compshare上，使用docker-compose运行xinference和chatgpt-web项目，配置成功！！！

【xinference】（14）：在compshare上，使用nvidia-docker方式，成功启动推理框架xinference，并运行大模型，非常简单方便

【大模型研究】（3）：在AutoDL上部署，使用脚本一键部署fastchat服务和界面，部署生成姜子牙-代码生成大模型-15B，可以本地运行，提高效率

【chatglm3】（10）：使用fastchat本地部署chatlgm3-6b模型，并配合chatgpt-web的漂亮界面做展示，调用成功，vue的开源项目

【xinference】（3）：在autodl上，使用xinference部署whisper-tiny音频模型，并成功将语音转换成文本

【chatglm】（9）：使用fastchat和vllm部署chatlgm3-6b模型，并简单的进行速度测试对比。vllm确实速度更快些。