V
主页
京东 11.11 红包
【xinference】(12):目前最全大模型推理框架xinference,发布0.12.2版本,支持qwen2函数调用,0.5,1.5,7b版本都支持
发布人
【xinference】(12):目前最全大模型推理框架xinference,发布0.12.2版本,支持qwen2函数调用,0.5,1.5,7b版本都支持 文章地址: https://blog.csdn.net/freewebsys/article/details/139907014 项目脚本地址: https://gitee.com/fly-llm/xinference-run-llm
打开封面
下载高清视频
观看高清视频
视频下载器
【xinference】:目前最全大模型推理框架xinference,简单介绍项目,咱们国人开发的推理框架,目前github有3.3k星星
五分钟实现Qwen2大模型部署,保姆级教程,快速上手最强国产大模型!环境配置+模型微调+模型部署+效果展示详细教程!附部署和微调文档!
【xinference】(9):本地使用docker构建环境,一次部署embedding,rerank,qwen多个大模型,成功运行,非常推荐
【xinference】(14):在compshare上,使用nvidia-docker方式,成功启动推理框架xinference,并运行大模型,非常简单方便
【OrangePi】(2):香橙派OrangePi AIpro设备,安装xinference框架,运行qwen1.5大模型
OpenAI开源了?多智能体框架Swarm重磅发布|Swarm快速入门介绍|Swarm调用流程及使用性能介绍
【ollama】(1):本地运行大型语言模型(LLM)的新利器,本地运行qwen2-1.5B大模型
【xinference】(16):在本地CPU上,使用docker-compose运行xinference和chatgpt-web项目,运行0.5B和1.5B
特别推荐!在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s
【candle】(4):使用rsproxy安装rust环境,使用candle项目,成功运行Qwen1.5-0.5B-Chat模型,修改hf-hub下载地址
【xinference】(19):在L40设备上通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,速度快一点
10分钟学会Qwen2环境配置+LoRA模型微调+效果展示详细部署教程!
【xinference】(3):在autodl上,使用xinference部署whisper-tiny音频模型,并成功将语音转换成文本
【chatglm3】(10):使用fastchat本地部署chatlgm3-6b模型,并配合chatgpt-web的漂亮界面做展示,调用成功,vue的开源项目
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端
【喂饭教程】8分钟学会微调大模型Qwen2,环境配置+模型微调+模型部署+效果展示详细教程!草履虫都能学会~
【compshare】(1):推荐一个GPU按小时租的平台,使用实体机部署,可以方便快速的部署xinf推理框架并提供web展示,部署qwen大模型,特别方便
【xinference】(6):在autodl上,使用xinference部署yi-vl-chat和qwen-vl-chat模型,可以使用openai调用成功
小模型的时代终于来了,1.5B参数量模型也能轻松构建GraphRAG
【包教会的】8分钟教会你微调大模型Qwen2,环境配置+模型微调+模型部署+效果展示详细教程!
【Dify知识库】(1):本地环境运行dity+fastchat的ChatGLM3模型,可以使用chat/completions接口调用chatglm3模型
【ollama】(5):在本地使用docker-compose启动ollama镜像,并下载qwen-0.5b模型,速度飞快
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功
【Tauri】(1):使用Tauri1.5版本,进行桌面应用开发,在windows,linux进行桌面GUI应用程序开发,可以打包成功,使用 vite 最方便
有点恶心,但是一周可以拿5个大模型岗offer
三分钟本地部署Qwen大模型,保姆级教程!手把手带你本地微调一个法律大模型!无需GPU,只要5G内存!超简单的部署教程,附安装包和微调文档!
【xinference】(17):在本地CPU上,运行xinference,使用llama.cpp运行qwen2-7B大模型,解决内存18G溢出问题
【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署GLM-4-9B-Chat大模型,占用显存18G
Meta AI 发布 Llama 3.2 !正式开源,手机也能用!多模态AI模型,性能与GPT4o-mini 相当,能够在边缘设备上高效运行。
OpenAI o1推理大模型快速入门实战|o1调用、自动编程、文档逻辑关系提取实战!
【LocalAI】(10):在autodl上编译embeddings.cpp项目,转换bge-base-zh-v1.5模型成ggml格式,本地运行main成功
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84t/s
使用docker运行最新chatglm3-6b,对外的http服务,使用python代码执行函数调用,查询北京天气代码演示和说明
【deepseek】(1):12月1日新大模型deepseek发布!使用3080显卡,运行7b模型,可以正常运行WebUI了,速度9 words/s。
【xinference】(15):在compshare上,使用docker-compose运行xinference和chatgpt-web项目,配置成功!!!
【B站最全手撕transformer】transformer原理模型代码深度讲解+讲义+代码
基于多模态大模型开源OCR2.0模型
在云主机上使用4090部署,使用fastchat框架成功部署Baichuan2-13B-Chat模型,8bit运行模式,可以进行问答啦!
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协
【chatglm3】(8):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度1.1w tokens/s,真的超级快。