【fastllm】学习框架，本地运行，速度还可以，可以成功运行chatglm2模型 - 视频下载 Video Downloader

【fastllm】学习框架，本地运行，速度还可以，可以成功运行chatglm2模型

发布人

【fastllm】学习框架，本地运行，速度还可以，可以成功运行chatglm2模型

https://blog.csdn.net/freewebsys/article/details/136579268

打开封面下载高清视频观看高清视频视频下载器

【ollama】（7）：使用Nvidia Jetson Nano设备，成功运行ollama，运行qwen:0.5b-chat，速度还可以，可以做创新项目了

【ollama】（5）：在本地使用docker-compose启动ollama镜像，并下载qwen-0.5b模型，速度飞快

【ollama】（2）：在linux搭建环境，编译ollama代码，测试qwen大模型，本地运行速度飞快，本质上是对llama.cpp 项目封装

【chatglm3】（8）：模型执行速度优化，在4090上使用fastllm框架，运行ChatGLM3-6B模型，速度1.1w tokens/s，真的超级快。

【LocalAI】（6）：在autodl上使用4090部署LocalAIGPU版本，成功运行qwen-1.5-32b大模型，占用显存18G，速度 84t/s

【ollama】（1）：本地运行大型语言模型（LLM）的新利器，本地运行qwen2-1.5B大模型

【LocalAI】（3）：超级简单！在linux上使用一个二进制文件，成功运行embeddings和qwen-1.5大模型，速度特别快，有gitee配置说明

【OrangePi】（2）：香橙派OrangePi AIpro设备，安装xinference框架，运行qwen1.5大模型

【xinference】（8）：在autodl上，使用xinference部署qwen1.5大模型，速度特别快，同时还支持函数调用，测试成功！

【LocalAI】（4）：在autodl上使用3080Ti部署LocalAIGPU版本，成功运行qwen-1.5-7b大模型，速度特别快，特别依赖cuda版本

内部imgui 基础讲解

【xinference】（9）：本地使用docker构建环境，一次部署embedding，rerank，qwen多个大模型，成功运行，非常推荐

【candle】（4）：使用rsproxy安装rust环境，使用candle项目，成功运行Qwen1.5-0.5B-Chat模型，修改hf-hub下载地址

【wails】（7）：运行llama.go项目，使用纯golang写的代码，下载了模型文件，然后可以本地执行了，可以执行，就是模型文件26G，运行速度慢

【wails】（1）：使用go做桌面应用开发，wails框架入门学习，在Linux上搭建环境，运行demo项目，并打包测试

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，用vllm优化，增加 --num-gpu 2，速度23 words/s

【大模型研究】（5）：在AutoDL上部署，一键部署DeepSeek-MOE-16B大模型，可以使用FastChat成功部署，显存占用38G，运行效果不错。

特别推荐！在modelscope上可以使用免费的CPU和限时的GPU啦，成功安装xinference框架，并部署qwen-1.5大模型，速度7 tokens/s

【xinference】（14）：在compshare上，使用nvidia-docker方式，成功启动推理框架xinference，并运行大模型，非常简单方便

【LocalAI】（12）：本地使用CPU运行LocalAI，piper语音模型已经切换到了hugging faces上了，测试中文语音包成功！

【xinference】（19）：在L40设备上通过Xinference框架，快速部署CogVideoX-5b模型，可以生成6秒视频，速度快一点

【candle】（3）：安装rust环境，使用GPU进行加速，成功运行qwen的0.5b，4b，7b模型，搭建rust环境，配置candle，下使用hf-mir

采用c++制作漂亮的桌面应用程序

在云主机上使用4090部署，使用fastchat框架成功部署Baichuan2-13B-Chat模型，8bit运行模式，可以进行问答啦！

【ollama】（6）：在本地使用docker-compose启动ollama镜像，对接chatgpt-web服务，配置成功，可以进行web聊天了，配置在简介里

【compshare】（1）：推荐一个GPU按小时租的平台，使用实体机部署，可以方便快速的部署xinf推理框架并提供web展示，部署qwen大模型，特别方便

使用llama.cpp项目bin文件运行，glm4-chat-9b大模型，速度不快，建议选择量化小的Q2试试

【LocalAI】（7）：在autodl上使用4090D部署，成功部署localai-cuda-12的二进制文件，至少cuda版本是12.4才可以，运行qwen

【LocalAI】（10）：在autodl上编译embeddings.cpp项目，转换bge-base-zh-v1.5模型成ggml格式，本地运行main成功

【LocalAI】（5）：在autodl上使用4090Ti部署LocalAIGPU版本，成功运行qwen-1.5-14b大模型，占用显存8G

【ChatGLM3】（6）：使用1个2080Ti-11G版本，运行ChatGLM3-Int8模型，可以正常运行，速度6 words/s，不支持vllm启动

【chatglm3】（10）：使用fastchat本地部署chatlgm3-6b模型，并配合chatgpt-web的漂亮界面做展示，调用成功，vue的开源项目

【deepseek】（1）：12月1日新大模型deepseek发布！使用3080显卡，运行7b模型，可以正常运行WebUI了，速度9 words/s。

【wails】（5）：经过一段时间的研究，使用wails做桌面应用开发，使用gin+go-chatglm.cpp本地运行大模型，开发接口，在linux上运成功！

【Dify知识库】（1）：本地环境运行dity+fastchat的ChatGLM3模型，可以使用chat/completions接口调用chatglm3模型

【Dify知识库】（12）：在autodl上，使用xinference部署chatglm3，embedding，rerank大模型，并在Dify上配置成功

【大模型研究】（3）：在AutoDL上部署，使用脚本一键部署fastchat服务和界面，部署生成姜子牙-代码生成大模型-15B，可以本地运行，提高效率

【ai技术】（3）：树莓派4，成功安装ollama软件，内存4G，安装命令行版本，使用raspi-config配置wifi，速度9 t/s

【LocalAI】（9）：本地使用CPU运行LocalAI，一次运行4个大模型，embedding模型，qwen-1.5-05b模型，生成图模型，语音转文字模型

【xinference】：目前最全大模型推理框架xinference，简单介绍项目，咱们国人开发的推理框架，目前github有3.3k星星