V
主页
从0.5B到340B的LLM都需要多少显存?
发布人
本期视频介绍了LLM推理时所需显存与推理速度,以及Batch-Size,上下文长度,不同量化如何影响显存与推理速度。
打开封面
下载高清视频
观看高清视频
视频下载器
为什么说14b是qwen2.5的更优解
【13B大模型无用】大家不需要用自己的8G显存跑大模型了,没意义,70B也许成,我试试
双4090部署qwen72b大模型 每秒150tokens
[测试] qwen 0.5b 1.8b 7b 14b 模型翻译文本测试 14b 效果不错 7b 可以接受
核能挑战:8GB显存本地跑Llama 405B
2080TI 22G 改显存后AI绘画性能与3090比较
沉浸体验4060Ti 16G显卡运行Qwen2.5大模型的效果
摩尔线程musa 转cuda代码 S80 BLAS FFT测试-结果出来了,很难接受
4张tesla P100 16G显存运行 llama3.1 70B大模型
炼丹炉?RTX 2080Ti魔改44g显存
面对黑客,他展示了他的所有
你知道吗,男性的尿道大约有16-20cm长,并且这个长度是女性的五倍左右
大模型加速框架哪家强?vllm,lightllm,tensorrt-llm,llama.cpp?
最便宜的48GB显存运算卡-RTX8000
22GB不够64GB怎么样?
CPU反超NPU,llama.cpp生成速度翻5倍! LLM端侧部署新范式T-MAC开源
Qwen2很好,但我选GLM4
ChatGLM+Langchain构建本地知识库,只需6G显存,支持实时上传文档
用 300 元的显卡推理 Qwen1.5-14B 效果展示
家庭PC本地部署LLama3 70B模型测试,对比70B和8B模型的效果,看看人工智障距离人工智能还有多远
200元显卡大战Qwen2.5-32B,垃圾佬也想跑本地大模型,P104双卡Linux下Ollama跑Local LLM
10000元最强深度学习主机,显卡24G的显存,这配置太香了!
无内容审查(NSFW)大语言模型Yi-34B-Chat蒸馏版测试,RolePlay,《天龙八部》马夫人康敏,本地GPU,CPU运行
vLLm: 大模型LLM快速推理的神器, llama2秒级完成推理不用再等待
本地运行通义千问32B!不吃配置保护隐私,可兼容AMD显卡或纯CPU
如何组装一台4卡4090GPU服务器?一口气看完市面上常见的10种方案
大语言模型虎扑评分,你最常用哪个?Chatgpt4!【虎扑锐评】
P104+P40本地部署qwen1.5 72B
【HomeLab】Qwen-72B 大模型 离线 私有 本地部署 演示
英伟达4090实测通义千问Qwen-72B-Chat 模型性能
Qwen2为何“高分低能”?实测中表现还不如Qwen1.5!
我们训练了一个没有道德限制的大模型
部署本地大模型和知识库,最简单的方法
本地语言模型个人推荐
本地运行通义千问72B!兼容AMD显卡或纯CPU【LM Studio】
本地跑大模型,需要什么配置
4090逆天的ai画图速度
国内大模型基本就是靠两个洋雷锋
M3 max 48g 跑Llama3 70b 4bit
4060Ti 16G显卡运行百川2-13B大模型效果