V
主页
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功
发布人
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功 https://gitee.com/fly-llm/xinference-run-llm 经测试可以部署成功三个模型: xinference launch --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization 8-bit xinference launch --model-name bge-large-zh --model-type embedding xinference launch --model-name bge-reranker-large --model-type rerank
打开封面
下载高清视频
观看高清视频
视频下载器
【xinference】(9):本地使用docker构建环境,一次部署embedding,rerank,qwen多个大模型,成功运行,非常推荐
【Dify知识库】(11):Dify0.4.9改造支持MySQL,成功接入yi-6b 做对话,本地使用fastchat启动,占8G显存,完成知识库配置
【大模型研究】(9):通义金融-14B-Chat-Int4金融大模型部署研究,在autodl上一键部署,解决启动问题,占用显存10G,有非常多的股票专业信息
【xinference】(3):在autodl上,使用xinference部署whisper-tiny音频模型,并成功将语音转换成文本
【Dify知识库】(3):开源大模型+知识库方案,使用Dify配置智谱AI的key,可以进行聊天和知识库问答,效果更好。
【Dify知识库】(1):本地环境运行dity+fastchat的ChatGLM3模型,可以使用chat/completions接口调用chatglm3模型
【Dify知识库】(2):开源大模型+知识库方案,Dify+fastchat的BGE模型,可以使用embedding接口对知识库进行向量化,绑定聊天应用
【xinference】(6):在autodl上,使用xinference部署yi-vl-chat和qwen-vl-chat模型,可以使用openai调用成功
【chatglm3】(7):大模型训练利器,使用LLaMa-Factory开源项目,对ChatGLM3进行训练,特别方便,支持多个模型,非常方方便
【xinference】(4):在autodl上,使用xinference部署sd-turbo模型,可以根据文本生成图片,在RTX3080-20G上耗时1分钟
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84t/s
【xinference】(5):在autodl上,使用xinference部署sdxl-turbo模型,效果好太多了,模型的进步效果更好,图像更加细腻
【chatglm3】(4):如何设计一个知识库问答系统,参考智谱AI的知识库系统,学习设计理念,开源组件
【大模型研究】(6):在AutoDL上部署,成功部署Mixtral-8x7B大模型,8bit量化,需要77G显存,355G硬盘
15分钟手把手教你在RAG中如何选择合适的embedding模型!附解析代码!
【chatglm3】(10):使用fastchat本地部署chatlgm3-6b模型,并配合chatgpt-web的漂亮界面做展示,调用成功,vue的开源项目
【Dify知识库】(9):使用Docker镜像打补丁方式,解决Dify0.4.7版本,支持MySQL数据库。解决统计查询问题,演示Dify0.4.7版本功能
在AutoDL上,使用4090显卡,部署ChatGLM3API服务,并微调AdvertiseGen数据集,完成微调并测试成功!
【大模型研究】(7):在AutoDL上部署,一键部署最新的chatglm3-6b,8bit量化需要8G内存,发现下载需要48G硬盘了,但是模型只有12G
【LocalAI】(7):在autodl上使用4090D部署,成功部署localai-cuda-12的二进制文件,至少cuda版本是12.4才可以,运行qwen
【Dify知识库】(5):Dify知识库切换Postgres数据库成MySQL数据库,解决UUID问题,可以注册登陆成功
【LocalAI】(4):在autodl上使用3080Ti部署LocalAIGPU版本,成功运行qwen-1.5-7b大模型,速度特别快,特别依赖cuda版本
【大模型研究】(5):在AutoDL上部署,一键部署DeepSeek-MOE-16B大模型,可以使用FastChat成功部署,显存占用38G,运行效果不错。
【大模型研究】(10):在autodl上部署语音模型,测试语音识别和语音合成,非常简单方便就测试成功了,机器人语音交互解方案有了
【ChatGLM3】(6):使用1个2080Ti-11G版本,运行ChatGLM3-Int8模型,可以正常运行,速度6 words/s,不支持vllm启动
【xinference】:目前最全大模型推理框架xinference,简单介绍项目,咱们国人开发的推理框架,目前github有3.3k星星
B站强推!手把手教你如何选取RAG中的embedding模型,模型讲解+代码解析,看完就能学明白!LLM大模型_RAG_大模型微调_多模态
【chatglm3】(8):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度1.1w tokens/s,真的超级快。
【Dify知识库】(6):Dify知识库切换Postgres数据库成MySQL数据库,解决TIME ZONE SQL 查询问题,代码已经更新
【LocalAI】(5):在autodl上使用4090Ti部署LocalAIGPU版本,成功运行qwen-1.5-14b大模型,占用显存8G
【xinference】(14):在compshare上,使用nvidia-docker方式,成功启动推理框架xinference,并运行大模型,非常简单方便
【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!
【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署GLM-4-9B-Chat大模型,占用显存18G
【大模型知识库】(1):设计开源项目,docker部署mysql,seilisearch,milvus,fastchat的ChatGLM3,BGE-zh模型
【LocalAI】(12):本地使用CPU运行LocalAI,piper语音模型已经切换到了hugging faces上了,测试中文语音包成功!
【ollama】(4):在autodl中安装ollama工具,配置环境变量,修改端口,使用RTX 3080 Ti显卡,测试coder代码生成大模型
终于弄明白FastChat服务了,本地部署ChatGLM3,BEG模型,可部署聊天接口,web展示和Embedding服务!
特别推荐!在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s
【大模型研究】(8):在AutoDL上部署,一键部署Qwen-1_8B-Chat-Int4量化版,需要2.5G显存,非常适合在智能机器人/边缘计算上部署