V
主页
单卡魔改2080ti跑Qwen1.5 14B AWQ速度测试
发布人
单请求在37t/s, 4并发吞吐量在130t/s 8 并发吞吐量 205t/s 16 并发吞吐量 340t/s 32 并发吞吐量 344t/s 单卡2080ti22G 系统为unraid 推理框架vllm,docker运行 可以上下文8k左右 测试地址:https://openai-api-playground.streamlit.app/
打开封面
下载高清视频
观看高清视频
视频下载器
本地革新!两块2080ti魔改显卡驱动32B通义千问,VLLM框架解锁翻译新速度
八块魔改2080ti上跑两个通义千问72B,效率翻倍,瞬时翻译,精准即达
低成本运行通义千问72B,实现高效高质翻译任务,媲美GPT4
万元预算本地流畅跑Qwen1.5_72B AWQ
八块魔改2080ti显卡跑llama-3-70b-instruct-GPTQ
通义千问110B本地8卡魔改2080ti推理速度测试报告
八块魔改2080ti显卡跑WizardLM-2-8x22B-AWQ
3万字长文摘要:通义千问32B模型的长文本实力展示
八块魔改2080ti显卡满血跑Mixtral-8x22B-Instruct-v0.1-AWQ
单卡2080Ti跑通义千问32B大模型(ollama和vllm推理框架)
8卡魔改2080ti跑Qwen1.5 72B int8速度测试
中文版LLAMa3 70B,性能强化,零损耗,震撼登场!
四块魔改2080ti显卡跑llama-3-70b-instruct-awq
Qwen2 72B Instruct 全量模型本地运行实测
8卡魔改2080ti跑Qwen1.5 72B int4速度测试
无障碍阅读英文网站:本地AI大模型通义千问72B+沉浸式翻译
8卡魔改2080ti版驱动通义千问,72Bint8展现30K上下文的强大语言处理能力
2080ti单卡运行Ollama:并发Llama3模型与多模型加载推理
AMD 7900XTX: Ollama本地运行LLama 3和Qwen大模型
FastGPT+Qwen32B=翻译工作流智能体
FastGPT+Qwen1.5_72B 搭建本地翻译智能体
本地AI大模型PDF多语言翻译
单2080ti魔改22G显卡Ollama试运行Llama3 8B
古董GTX1080显卡跑Yi:9b chat-v1.5-Q4_K_M
"通义千问"110B大模型助力无障碍阅读英文原版书籍
阿里豁出去了!开源了通义千问全尺寸模型(本地部署Qwen2-VL教程)
测试Yi-1.5-34B-Chat
在本地环境中运行大模型LLAMA3-1-70B,支持128k超长上下文
大模型在线API速度测试:DeepSeek,Yi
我的通义账号终于解封了!但是,我要碎了……
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
AMD RX 7900 xtx :Ollama run Yi:9b-chat-v1.5-fp16
如何快速估算模型训练资源?Llama3竟用16000块GPU!
精准翻译之道:融合智能体、专业知识库与工作流的高效流程构建
Yi 34B Chat 200K 长文翻译
【整整300集】字节跳动196小时讲完的AI大模型教程,让你自学AI大模型少走99%的弯路!(AI大模型入门|AI大模型开发|AI大模型应用)
能力挑战:指令遵循与文本核心语句定位
罗技LMS在线流畅播放115网盘DSD256——门耳朵玩转数播
智普最新开源大模型GLM-4-9b-chat
即刻体验极致翻译 - Bob软件集成多AI大模型,实时对比选优