V
主页
京东 11.11 红包
【xinference】(9):本地使用docker构建环境,一次部署embedding,rerank,qwen多个大模型,成功运行,非常推荐
发布人
【xinference】(9):本地使用docker构建环境,一次部署embedding,rerank,qwen多个大模型,成功运行,推荐推荐 代码地址: https://gitee.com/fly-llm/xinference-run-llm/tree/master/embedding-rerank-qwen Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 官方首页: https://github.com/xorbitsai/inference/blob/main/README_zh_CN.md 文档地址: https://inference.readthedocs.io/zh-cn/latest/index.html
打开封面
下载高清视频
观看高清视频
视频下载器
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功
【xinference】:目前最全大模型推理框架xinference,简单介绍项目,咱们国人开发的推理框架,目前github有3.3k星星
【xinference】(14):在compshare上,使用nvidia-docker方式,成功启动推理框架xinference,并运行大模型,非常简单方便
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协
【ollama】(3):在linux搭建环境中,安装ollama工具,并且完成启动下载gemma:7b和qwen:1.8b运行速度飞快,支持http接口和命令行
【LocalAI】(3):超级简单!在linux上使用一个二进制文件,成功运行embeddings和qwen-1.5大模型,速度特别快,有gitee配置说明
docker无法拉取,docker拉取失败,成功好用的镜像源 for linux
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84t/s
【LocalAI】(9):本地使用CPU运行LocalAI,一次运行4个大模型,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型
Docker动手入门 | 大模型工程师必备技能 (🎉已完结)
终于弄明白FastChat服务了,本地部署ChatGLM3,BEG模型,可部署聊天接口,web展示和Embedding服务!
【大模型研究】(9):通义金融-14B-Chat-Int4金融大模型部署研究,在autodl上一键部署,解决启动问题,占用显存10G,有非常多的股票专业信息
使用docker本地运行chatglm3,原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务
【xinference】(6):在autodl上,使用xinference部署yi-vl-chat和qwen-vl-chat模型,可以使用openai调用成功
pythonstock开源股票系统(1):概要介绍/说明,使用docker-compose本地运行启动,初始化数据库,可以进行web展示
【LocalAI】(4):在autodl上使用3080Ti部署LocalAIGPU版本,成功运行qwen-1.5-7b大模型,速度特别快,特别依赖cuda版本
在AutoDL上,使用4090显卡,部署ChatGLM3API服务,并微调AdvertiseGen数据集,完成微调并测试成功!
【xinference】(15):在compshare上,使用docker-compose运行xinference和chatgpt-web项目,配置成功!!!
推荐国内使用hub.atomgit.com下载docker镜像,速度快,镜像经过安全扫描,常用的开发工具,软件都有啦!
【ollama】(5):在本地使用docker-compose启动ollama镜像,并下载qwen-0.5b模型,速度飞快
【candle】(4):使用rsproxy安装rust环境,使用candle项目,成功运行Qwen1.5-0.5B-Chat模型,修改hf-hub下载地址
【xinference】(18):在4090设备上通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,效果还可以,只支持英文,
千万不要学node!
【candle】(3):安装rust环境,使用GPU进行加速,成功运行qwen的0.5b,4b,7b模型,搭建rust环境,配置candle,下使用hf-mir
【ollama】(2):在linux搭建环境,编译ollama代码,测试qwen大模型,本地运行速度飞快,本质上是对llama.cpp 项目封装
【xinference】(3):在autodl上,使用xinference部署whisper-tiny音频模型,并成功将语音转换成文本
【LocalAI】(1):localai项目学习,通过使用docker形式,使用golang+grpc的方式实现本地大模型运行
【chatglm】(9):使用fastchat和vllm部署chatlgm3-6b模型,并简单的进行速度测试对比。vllm确实速度更快些。
【Dify知识库】(1):本地环境运行dity+fastchat的ChatGLM3模型,可以使用chat/completions接口调用chatglm3模型
特别推荐!在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s
【LocalAI】(7):在autodl上使用4090D部署,成功部署localai-cuda-12的二进制文件,至少cuda版本是12.4才可以,运行qwen
【LocalAI】(11):本地使用CPU运行LocalAI,一次运行5个能力,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字互转
【大模型研究】(4):在AutoDL上部署,一键部署DeepSeekCoder大模型,可以快速生成各种代码,程序员代码生成利器!效率非常高!
【compshare】(1):推荐一个GPU按小时租的平台,使用实体机部署,可以方便快速的部署xinf推理框架并提供web展示,部署qwen大模型,特别方便
【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署GLM-4-9B-Chat大模型,占用显存18G
【xinference】(2):在autodl上,使用xinference部署qwen-chat大模型,支持函数调用,使用openai接口调用成功!
Gorse Go 推荐系统引擎,可以使用docker-compose本地运行,github有8.5k星
【ollama】(7):使用Nvidia Jetson Nano设备,成功运行ollama,运行qwen:0.5b-chat,速度还可以,可以做创新项目了
【大模型研究】(10):在autodl上部署语音模型,测试语音识别和语音合成,非常简单方便就测试成功了,机器人语音交互解方案有了
【B站最强小白运维课】2024年【k8s企业级DevOps实战】与源码解析最新版,入门级到精通全套完整课程,Linux运维,面向实战学习才是对!