V
主页
【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!
发布人
【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功! Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。 官方网站: https://inference.readthedocs.io/zh-cn/latest/index.html 启动Xinference服务 https://gitee.com/fly-llm/xinference-run-llm 项目地址: https://github.com/xorbitsai/inference
打开封面
下载高清视频
观看高清视频
视频下载器
【xinference】(9):本地使用docker构建环境,一次部署embedding,rerank,qwen多个大模型,成功运行,非常推荐
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84t/s
【LocalAI】(3):超级简单!在linux上使用一个二进制文件,成功运行embeddings和qwen-1.5大模型,速度特别快,有gitee配置说明
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协
【candle】(4):使用rsproxy安装rust环境,使用candle项目,成功运行Qwen1.5-0.5B-Chat模型,修改hf-hub下载地址
【LocalAI】(7):在autodl上使用4090D部署,成功部署localai-cuda-12的二进制文件,至少cuda版本是12.4才可以,运行qwen
【LocalAI】(5):在autodl上使用4090Ti部署LocalAIGPU版本,成功运行qwen-1.5-14b大模型,占用显存8G
【ollama】(5):在本地使用docker-compose启动ollama镜像,并下载qwen-0.5b模型,速度飞快
【LocalAI】(9):本地使用CPU运行LocalAI,一次运行4个大模型,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型
【compshare】(1):推荐一个GPU按小时租的平台,使用实体机部署,可以方便快速的部署xinf推理框架并提供web展示,部署qwen大模型,特别方便
【xinference】(5):在autodl上,使用xinference部署sdxl-turbo模型,效果好太多了,模型的进步效果更好,图像更加细腻
特别推荐!在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s
【xinference】(6):在autodl上,使用xinference部署yi-vl-chat和qwen-vl-chat模型,可以使用openai调用成功
【LocalAI】(4):在autodl上使用3080Ti部署LocalAIGPU版本,成功运行qwen-1.5-7b大模型,速度特别快,特别依赖cuda版本
【candle】(3):安装rust环境,使用GPU进行加速,成功运行qwen的0.5b,4b,7b模型,搭建rust环境,配置candle,下使用hf-mir
【chatglm3】(10):使用fastchat本地部署chatlgm3-6b模型,并配合chatgpt-web的漂亮界面做展示,调用成功,vue的开源项目
【大模型研究】(5):在AutoDL上部署,一键部署DeepSeek-MOE-16B大模型,可以使用FastChat成功部署,显存占用38G,运行效果不错。
【大模型研究】(6):在AutoDL上部署,成功部署Mixtral-8x7B大模型,8bit量化,需要77G显存,355G硬盘
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功
【xinference】(3):在autodl上,使用xinference部署whisper-tiny音频模型,并成功将语音转换成文本
【ollama】(7):使用Nvidia Jetson Nano设备,成功运行ollama,运行qwen:0.5b-chat,速度还可以,可以做创新项目了
【OrangePi】(2):香橙派OrangePi AIpro设备,安装xinference框架,运行qwen1.5大模型
【xinference】(19):在L40设备上通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,速度快一点
【大模型研究】(4):在AutoDL上部署,一键部署DeepSeekCoder大模型,可以快速生成各种代码,程序员代码生成利器!效率非常高!
【xinference】(4):在autodl上,使用xinference部署sd-turbo模型,可以根据文本生成图片,在RTX3080-20G上耗时1分钟
【Tauri】(3):使用Tauri1.5版本,进行桌面应用开发,在windows上搭建环境,安装node,rust环境,可以打包成功,使用vite创建应用
【Tauri】(1):使用Tauri1.5版本,进行桌面应用开发,在windows,linux进行桌面GUI应用程序开发,可以打包成功,使用 vite 最方便
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端
函数调用C数组时, 数组会退化为指针, 使用std::span改善_代码知识
【LocalAI】(11):本地使用CPU运行LocalAI,一次运行5个能力,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字互转
【大模型研究】(9):通义金融-14B-Chat-Int4金融大模型部署研究,在autodl上一键部署,解决启动问题,占用显存10G,有非常多的股票专业信息
【wails】(7):运行llama.go项目,使用纯golang写的代码,下载了模型文件,然后可以本地执行了,可以执行,就是模型文件26G,运行速度慢
【xinference】:目前最全大模型推理框架xinference,简单介绍项目,咱们国人开发的推理框架,目前github有3.3k星星
【ai技术】(4):在树莓派4上,使用ollama部署qwen0.5b大模型+chatgptweb前端界面,搭建本地大模型聊天工具,速度飞快
【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署GLM-4-9B-Chat大模型,占用显存18G
【大模型研究】(7):在AutoDL上部署,一键部署最新的chatglm3-6b,8bit量化需要8G内存,发现下载需要48G硬盘了,但是模型只有12G
【大模型研究】(1):从零开始部署书生·浦语2-20B大模型,使用fastchat和webui部署测试,autodl申请2张显卡,占用显存40G可以运行
【xinference】(16):在本地CPU上,使用docker-compose运行xinference和chatgpt-web项目,运行0.5B和1.5B
【大模型研究】(3):在AutoDL上部署,使用脚本一键部署fastchat服务和界面,部署生成姜子牙-代码生成大模型-15B,可以本地运行,提高效率
使用autodl服务器,在A40显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度18 words/s