【创新思考】（1）：使用x86架构+Nvidia消费显卡12G显存，搭建智能终端，将大模型本地化部署，语音交互机器人设计，初步设计 - 视频下载 Video Downloader

【创新思考】（1）：使用x86架构+Nvidia消费显卡12G显存，搭建智能终端，将大模型本地化部署，语音交互机器人设计，初步设计

发布人

【创新思考】（1）：使用x86架构+Nvidia消费显卡12G显存，搭建智能终端，将大模型本地化部署，语音交互机器人设计

只是思考，还在开发中，初步设计中。有小伙伴感兴趣可以一起参加哈。

打开封面下载高清视频观看高清视频视频下载器

【AI大模型】使用Ollama+Dify搭建一个全能知识库！专属自己！支持多种文件类型，实现本地化大型模型部署，效果非凡！

【xinference】（9）：本地使用docker构建环境，一次部署embedding，rerank，qwen多个大模型，成功运行，非常推荐

【xinference】（8）：在autodl上，使用xinference部署qwen1.5大模型，速度特别快，同时还支持函数调用，测试成功！

【LocalAI】（5）：在autodl上使用4090Ti部署LocalAIGPU版本，成功运行qwen-1.5-14b大模型，占用显存8G

【xinference】（3）：在autodl上，使用xinference部署whisper-tiny音频模型，并成功将语音转换成文本

【LocalAI】（12）：本地使用CPU运行LocalAI，piper语音模型已经切换到了hugging faces上了，测试中文语音包成功！

【大模型研究】（1）：从零开始部署书生·浦语2-20B大模型，使用fastchat和webui部署测试，autodl申请2张显卡，占用显存40G可以运行

【大模型研究】（8）：在AutoDL上部署，一键部署Qwen-1_8B-Chat-Int4量化版，需要2.5G显存，非常适合在智能机器人/边缘计算上部署

【大模型研究】（10）：在autodl上部署语音模型，测试语音识别和语音合成，非常简单方便就测试成功了，机器人语音交互解方案有了

【大模型研究】（5）：在AutoDL上部署，一键部署DeepSeek-MOE-16B大模型，可以使用FastChat成功部署，显存占用38G，运行效果不错。

【xinference】（7）：在autodl上，使用xinference一次部署embedding，rerank，qwen多个大模型，兼容openai的接口协

【xinference】（5）：在autodl上，使用xinference部署sdxl-turbo模型，效果好太多了，模型的进步效果更好，图像更加细腻

【xinference】（4）：在autodl上，使用xinference部署sd-turbo模型，可以根据文本生成图片，在RTX3080-20G上耗时1分钟

【xinference】（11）：在compshare上使用4090D运行xinf和chatgpt-web，部署GLM-4-9B-Chat大模型，占用显存18G

【ollama】（2）：在linux搭建环境，编译ollama代码，测试qwen大模型，本地运行速度飞快，本质上是对llama.cpp 项目封装

终于弄明白FastChat服务了，本地部署ChatGLM3，BEG模型，可部署聊天接口，web展示和Embedding服务！

【xinference】（6）：在autodl上，使用xinference部署yi-vl-chat和qwen-vl-chat模型，可以使用openai调用成功

【大模型研究】（9）：通义金融-14B-Chat-Int4金融大模型部署研究，在autodl上一键部署，解决启动问题，占用显存10G，有非常多的股票专业信息

【Dify知识库】（12）：在autodl上，使用xinference部署chatglm3，embedding，rerank大模型，并在Dify上配置成功

【ollama】（3）：在linux搭建环境中，安装ollama工具，并且完成启动下载gemma:7b和qwen:1.8b运行速度飞快，支持http接口和命令行

【LocalAI】（7）：在autodl上使用4090D部署，成功部署localai-cuda-12的二进制文件，至少cuda版本是12.4才可以，运行qwen

【ollama】（4）：在autodl中安装ollama工具，配置环境变量，修改端口，使用RTX 3080 Ti显卡，测试coder代码生成大模型

【大模型研究】（6）：在AutoDL上部署，成功部署Mixtral-8x7B大模型，8bit量化，需要77G显存，355G硬盘

【ollama】（7）：使用Nvidia Jetson Nano设备，成功运行ollama，运行qwen:0.5b-chat，速度还可以，可以做创新项目了

【compshare】（1）：推荐一个GPU按小时租的平台，使用实体机部署，可以方便快速的部署xinf推理框架并提供web展示，部署qwen大模型，特别方便

Yi-VL-34B（5）：使用3个3090显卡24G版本，运行Yi-VL-34B模型，支持命令行和web界面方式，理解图片的内容转换成文字

【ai技术】（1）：发现一个大模型可视化项目，使用nodejs编写的，llm-viz，可以本地运行展示大模型结构。

【chatglm3】（10）：使用fastchat本地部署chatlgm3-6b模型，并配合chatgpt-web的漂亮界面做展示，调用成功，vue的开源项目

使用autodl服务器，在A40显卡上运行， Yi-34B-Chat-int4模型，并使用vllm优化加速，显存占用42G，速度18 words/s

【ai技术】（4）：在树莓派4上，使用ollama部署qwen0.5b大模型+chatgptweb前端界面，搭建本地大模型聊天工具，速度飞快

【xinference】（14）：在compshare上，使用nvidia-docker方式，成功启动推理框架xinference，并运行大模型，非常简单方便

【candle】（1）：学习huggingface的candle项目，新的模型部署框架，搭建rust环境，并将rust安装到制定目录，执行rust命令

【ai技术】（5）：推荐本地Ai应用chatbox，支持win/mac/linux系统，可以接入xinference的qwen1.5-chat大模型

【compshare】（3）：使用UCloud(优刻得)的compshare算力平台，新增加SD-webui和大模型镜像，可以快速启动，非常方便，部署特别简单

在AutoDL上，使用4090显卡，部署ChatGLM3API服务，并微调AdvertiseGen数据集，完成微调并测试成功！

【LocalAI】（11）：本地使用CPU运行LocalAI，一次运行5个能力，embedding模型，qwen-1.5-05b模型，生成图模型，语音转文字互转

【candle】（3）：安装rust环境，使用GPU进行加速，成功运行qwen的0.5b，4b，7b模型，搭建rust环境，配置candle，下使用hf-mir

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，用vllm优化，增加 --num-gpu 2，速度23 words/s

【Dify知识库】（10）：Dify0.4.9版，改造支持MySQL，成功接入通义千问-7B-Chat-Int4做对话，本地使用fastchat启动，占6G显存

【LocalAI】（3）：超级简单！在linux上使用一个二进制文件，成功运行embeddings和qwen-1.5大模型，速度特别快，有gitee配置说明