V
主页
【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署GLM-4-9B-Chat大模型,占用显存18G
发布人
【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署GLM-4-9B-Chat大模型,占用显存18G glm4-chat新大模型: https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/summary 脚本地址: https://gitee.com/fly-llm/xinference-run-llm
打开封面
下载高清视频
观看高清视频
视频下载器
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84t/s
【xinference】(9):本地使用docker构建环境,一次部署embedding,rerank,qwen多个大模型,成功运行,非常推荐
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协
【LocalAI】(5):在autodl上使用4090Ti部署LocalAIGPU版本,成功运行qwen-1.5-14b大模型,占用显存8G
【xinference】(14):在compshare上,使用nvidia-docker方式,成功启动推理框架xinference,并运行大模型,非常简单方便
【AI大模型】使用Ollama+Dify搭建一个专属于自己的知识库!支持多种文件类型,本地部署大模型,效果出奇的好!
使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,用vllm优化,增加 --num-gpu 2,速度23 words/s
【大模型研究】(5):在AutoDL上部署,一键部署DeepSeek-MOE-16B大模型,可以使用FastChat成功部署,显存占用38G,运行效果不错。
【xinference】(15):在compshare上,使用docker-compose运行xinference和chatgpt-web项目,配置成功!!!
【compshare】(1):推荐一个GPU按小时租的平台,使用实体机部署,可以方便快速的部署xinf推理框架并提供web展示,部署qwen大模型,特别方便
【大模型研究】(9):通义金融-14B-Chat-Int4金融大模型部署研究,在autodl上一键部署,解决启动问题,占用显存10G,有非常多的股票专业信息
【xinference】(4):在autodl上,使用xinference部署sd-turbo模型,可以根据文本生成图片,在RTX3080-20G上耗时1分钟
使用autodl服务器,在A40显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度18 words/s
【Dify知识库】(10):Dify0.4.9版,改造支持MySQL,成功接入通义千问-7B-Chat-Int4做对话,本地使用fastchat启动,占6G显存
【ollama】(7):使用Nvidia Jetson Nano设备,成功运行ollama,运行qwen:0.5b-chat,速度还可以,可以做创新项目了
【大模型研究】(1):从零开始部署书生·浦语2-20B大模型,使用fastchat和webui部署测试,autodl申请2张显卡,占用显存40G可以运行
【xinference】(6):在autodl上,使用xinference部署yi-vl-chat和qwen-vl-chat模型,可以使用openai调用成功
【xinference】(16):在本地CPU上,使用docker-compose运行xinference和chatgpt-web项目,运行0.5B和1.5B
在云主机上使用4090部署,使用fastchat框架成功部署Baichuan2-13B-Chat模型,8bit运行模式,可以进行问答啦!
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功
使用llama.cpp项目bin文件运行,glm4-chat-9b大模型,速度不快,建议选择量化小的Q2试试
【candle】(4):使用rsproxy安装rust环境,使用candle项目,成功运行Qwen1.5-0.5B-Chat模型,修改hf-hub下载地址
【xinference】(12):目前最全大模型推理框架xinference,发布0.12.2版本,支持qwen2函数调用,0.5,1.5,7b版本都支持
终于弄明白FastChat服务了,本地部署ChatGLM3,BEG模型,可部署聊天接口,web展示和Embedding服务!
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
【xinference】:目前最全大模型推理框架xinference,简单介绍项目,咱们国人开发的推理框架,目前github有3.3k星星
【OrangePi】(2):香橙派OrangePi AIpro设备,安装xinference框架,运行qwen1.5大模型
【chatglm3】(8):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度1.1w tokens/s,真的超级快。
【2024最新】54个大模型实战项目,练完即可就业,从入门到进阶,基础到框架,你想要的全都有,建议码住!超级适合小白入门学习,大模型教程
【ChatGLM3】(6):使用1个2080Ti-11G版本,运行ChatGLM3-Int8模型,可以正常运行,速度6 words/s,不支持vllm启动
【Dify知识库】(1):本地环境运行dity+fastchat的ChatGLM3模型,可以使用chat/completions接口调用chatglm3模型
xinference一键实现各种大模型本地部署(包含llm,tts,asr,embedding,rerank等模型)
【ollama】(6):在本地使用docker-compose启动ollama镜像,对接chatgpt-web服务,配置成功,可以进行web聊天了,配置在简介里
【大模型研究】(6):在AutoDL上部署,成功部署Mixtral-8x7B大模型,8bit量化,需要77G显存,355G硬盘
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端
【compshare】(5):使用UCloud(优刻得)的compshare算力平台,运行stable-diffusion-3-medium-comfyui镜像
【xinference】(5):在autodl上,使用xinference部署sdxl-turbo模型,效果好太多了,模型的进步效果更好,图像更加细腻
【xinference】(19):在L40设备上通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,速度快一点
【大模型研究】(8):在AutoDL上部署,一键部署Qwen-1_8B-Chat-Int4量化版,需要2.5G显存,非常适合在智能机器人/边缘计算上部署
使用docker本地运行chatglm3,原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务