V
主页
cpu + gpu 一起运行大模型到底行不行?- 基准测试跑跑看
发布人
ollama 支持将一部分模型 offload 到显存里,或者反过来说,如果模型不能全部放在显存里,可以把一部分模型放到内存中。但是这样做到底能让模型推理速度快多少呢?这里做了一些简单的基准测试供大家参考。
打开封面
下载高清视频
观看高清视频
视频下载器
ChatOllama又更新啦!| 基于Ollama的100%本地化知识库现在支持多种文件类型
用 300 元的显卡推理 Qwen1.5-14B 效果展示
如何使用Ollama运行非Ollama官方仓库的大模型,以及llama quantize.exe执行命令演示!
【穷训】2W服务器训练7B模型
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
【13B大模型无用】大家不需要用自己的8G显存跑大模型了,没意义,70B也许成,我试试
ollama+openwebui=免费版的ChatGPT4.0 | 本地部署方案
大语言模型量化损失测试 fp16/int8/int4成绩对比
70种Nvidia GPU显卡大比拼 大模型、AI、LLM、深度学习炼丹你到底该怎么配显卡?
Ollama本地运行LLM大语言模型初体验 | ChatGPT平替?| 离线本地 | 开源免费
13-大模型是如何在GPU中运行的
llama3 本地测试cpu-ollama,最强开源大模型
半块RTX4090 玩转70B大语言模型
Docker运行ollama共享NVIDIA GPU算力
如何利用GPU运行ollama
A卡/CPU运行大模型+知识库问答绝佳方案【AnythingLLM】
在4090上完美运行70B的llama2模型
2080Ti部署YI-34B大模型 xinference-oneapi-fastGPT本地知识库使用指南
无须显卡,摒弃复杂操作!使用ollama部署本地大模型
Ollama 无独显 CPU运行实测
阿里开源通义千问模型运行要多少GPU内存?
开启open-webui:一键集成ollama,打造革命性GPT体验!
ChatOllama更新啦!| 基于Ollama的100%本地化多文档知识库功能上线 - 附源码解析
4x2080ti 22G 组装低成本AI服务器跑Qwen1.5-110B-int4竟如此丝滑?
Ollama 支持的 flash attention 能提升推理速度吗?我们一起测测看吧
ollama vs vllm - 开启并发之后的 ollama 和 vllm 相比怎么样?
不用安装,一键克隆运行大模型啦 - 在云 GPU 上把 ollama 和 open webui 跑起来
中文版Mixtral-7x8bMoE25GB显存畅玩专家模型,真·超越GPT3.5!#多专家模型
4060Ti 16G显卡安装Ollama+ChatTTS打造智能语音秘书(突破30秒限制)
家庭PC本地部署LLama3 70B模型测试,对比70B和8B模型的效果,看看人工智障距离人工智能还有多远
ollama本地CPU部署开源大模型
微软发布2.7B小模型,碾压谷歌Gemini!性能直接打平比自己大25倍的大模型?
ollama+webui+SD功能大整合
显卡为什么不工作,CPU处理器马上快爆炸了,GPU显卡在偷懒?
轻松搭建本地大模型 Web 交互界面 - Ollama + Open WebUI
推荐Ollama多模型运行平台
Ollama本地运行Gemma | Google最新开放模型本地化
【大模型】个人学习大模型技术需要什么样的电脑配置?
qwen大模型地部署和微调法律大模型(只需5G内存)
从入门到郁闷 - AutoDL 下载模型全记录