V
主页
【LocalAI】(7):在autodl上使用4090D部署,成功部署localai-cuda-12的二进制文件,至少cuda版本是12.4才可以,运行qwen
发布人
【LocalAI】(7):在autodl上使用4090D部署,成功部署localai-cuda-12的二进制文件,至少cuda版本是12.4才可以,运行qwen-1.5-1.8b大模型 项目地址: https://gitee.com/fly-llm/localai-run-llm 总结下,如果显卡是 cuda 12.4 可以使用 localai-cuda12 否则,就使用 localai-cuda11 版本即可。 感觉上差异不大。
打开封面
下载高清视频
观看高清视频
视频下载器
【xinference】(9):本地使用docker构建环境,一次部署embedding,rerank,qwen多个大模型,成功运行,非常推荐
【LocalAI】(5):在autodl上使用4090Ti部署LocalAIGPU版本,成功运行qwen-1.5-14b大模型,占用显存8G
【LocalAI】(3):超级简单!在linux上使用一个二进制文件,成功运行embeddings和qwen-1.5大模型,速度特别快,有gitee配置说明
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84t/s
【LocalAI】(4):在autodl上使用3080Ti部署LocalAIGPU版本,成功运行qwen-1.5-7b大模型,速度特别快,特别依赖cuda版本
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功
在AutoDL上,使用4090显卡,部署ChatGLM3API服务,并微调AdvertiseGen数据集,完成微调并测试成功!
【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!
【LocalAI】(10):在autodl上编译embeddings.cpp项目,转换bge-base-zh-v1.5模型成ggml格式,本地运行main成功
【GPU体系结构基础 CoffeeBeforeArch】
【LocalAI】(12):本地使用CPU运行LocalAI,piper语音模型已经切换到了hugging faces上了,测试中文语音包成功!
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协
【CUDA 入门课程 CoffeeBeforeArch】
【ollama】(2):在linux搭建环境,编译ollama代码,测试qwen大模型,本地运行速度飞快,本质上是对llama.cpp 项目封装
【ai技术】(5):推荐本地Ai应用chatbox,支持win/mac/linux系统,可以接入xinference的qwen1.5-chat大模型
自编教材实操课程分享:第十章—CUDA程序编写
【candle】(4):使用rsproxy安装rust环境,使用candle项目,成功运行Qwen1.5-0.5B-Chat模型,修改hf-hub下载地址
【xinference】(3):在autodl上,使用xinference部署whisper-tiny音频模型,并成功将语音转换成文本
【LocalAI】(9):本地使用CPU运行LocalAI,一次运行4个大模型,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型
【candle】(3):安装rust环境,使用GPU进行加速,成功运行qwen的0.5b,4b,7b模型,搭建rust环境,配置candle,下使用hf-mir
【LocalAI】(11):本地使用CPU运行LocalAI,一次运行5个能力,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字互转
【xinference】(6):在autodl上,使用xinference部署yi-vl-chat和qwen-vl-chat模型,可以使用openai调用成功
【Triton编程】Dropout,Matrix Multiplication,Layer Normalization
【xinference】(1):在autodl上,使用xinference部署chatglm3大模型,支持函数调用,使用openai接口调用成功!
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端
【大模型研究】(10):在autodl上部署语音模型,测试语音识别和语音合成,非常简单方便就测试成功了,机器人语音交互解方案有了
【OrangePi】(2):香橙派OrangePi AIpro设备,安装xinference框架,运行qwen1.5大模型
【大模型研究】(5):在AutoDL上部署,一键部署DeepSeek-MOE-16B大模型,可以使用FastChat成功部署,显存占用38G,运行效果不错。
【大模型研究】(1):从零开始部署书生·浦语2-20B大模型,使用fastchat和webui部署测试,autodl申请2张显卡,占用显存40G可以运行
神经网络前向传播 GPU编程 第三集
【ollama】(7):使用Nvidia Jetson Nano设备,成功运行ollama,运行qwen:0.5b-chat,速度还可以,可以做创新项目了
【大模型研究】(9):通义金融-14B-Chat-Int4金融大模型部署研究,在autodl上一键部署,解决启动问题,占用显存10G,有非常多的股票专业信息
【大模型研究】(6):在AutoDL上部署,成功部署Mixtral-8x7B大模型,8bit量化,需要77G显存,355G硬盘
cuda实现matmul的重新解读
【xinference】(4):在autodl上,使用xinference部署sd-turbo模型,可以根据文本生成图片,在RTX3080-20G上耗时1分钟
【并行计算 CS149 2023】斯坦福大学—中英字幕
【xinference】(18):在4090设备上通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,效果还可以,只支持英文,
【大模型研究】(7):在AutoDL上部署,一键部署最新的chatglm3-6b,8bit量化需要8G内存,发现下载需要48G硬盘了,但是模型只有12G
在云主机上使用4090部署,使用fastchat框架成功部署Baichuan2-13B-Chat模型,8bit运行模式,可以进行问答啦!
【chatglm3】(8):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度1.1w tokens/s,真的超级快。