V
主页
【大模型量化】- Llama.cpp轻量化模型部署及量化
发布人
🚵♀️ 使用Llama.cpp实现gguf模型的轻量化部署及量化。 🎮 相关代码和数据:https://github.com/echonoshy/cgft-llm
打开封面
下载高清视频
观看高清视频
视频下载器
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
大模型量化一网打尽(一)理论基础
bitnet.cpp 推理,速度超越 llama.cpp,内存最高降低 16 倍 | 附 BitNet b1.58 模型安装演示
如何使用Ollama运行非Ollama官方仓库的大模型,以及llama quantize.exe执行命令演示!
神经网络-量化与部署,进阶之路迟早要越过的大山
第二十课:MoE
大模型量化部署 解析当前应用较广的几种量化部署方案!
llama3-06 基于llama-factory和自定义数据集进行模型微调
【大模型微调】使用Llama Factory实现中文llama3微调
llama3-04 使用llama.cpp进行llama3模型的量化和部署
llama.cpp大神实现投机采样,让大模型推理性能直接翻倍 #小工蚁
大语言模型量化简介
llamafactory大模型微调llama.cpp量化gguf模型中转ollama微调量化后推理调用llamafactory本地windows部署报错解决方案
大模型操作 | 开源模型的量化,GGUF格式转换,Ollama识别
用 300 元的显卡推理 Qwen1.5-14B 效果展示
模型转化 + 模型量化(从 safetensors 到 ollama)这里有详细的步骤哦
大模型加速框架哪家强?vllm,lightllm,tensorrt-llm,llama.cpp?
大模型瘦身技术 GGUF和GPTQ
CPU反超NPU,llama.cpp生成速度翻5倍! LLM端侧部署新范式T-MAC开源
都发布一个月了【还不会微调Llama3吗】!迪哥十分钟带你微调-量化-部署-应用一条龙解读!草履虫都能学会!!!
大模型量化是怎么实现的——transformers源码解读
Ollama 支持的 flash attention 能提升推理速度吗?我们一起测测看吧
大模型本地部署介绍---vllm和llama.cpp
最新开源的Llama3.1大模型能否在Android上运行?Yes!
图解llama架构 解读源码实现
【大模型RAG】Graph RAG介绍及ollama本地部署
CPU 时间是如何耗费在 llama.cpp 程序和 LLaMA2 模型内部的(使用 OpenResty XRay)(中文解说)
详解TensorRT的C++/Python高性能部署,实战应用到项目
使用Llama.cpp在摩尔线程S80上进行通义千问7b模型推理
Llama 2 模型结构解析
llama_cpp的pc端部署
无门槛人人可用. llama.cpp现已进入chatGPT Box自定义模型支持列表
本地语言模型个人推荐
第十五课:LLaMA
ollama vs vllm - 开启并发之后的 ollama 和 vllm 相比怎么样?
模型量化六:QLoRA 4bit 量化 NormalFloat4 量化
【大模型部署】Ollama部署Qwen2及llama.cpp补充
LlamaFactory:微调QWe (千问)模型 简单微调多数模型的便捷方法
03_多模态_基于llama.cpp进行模型量化和推理
1700多种开源大模型随意部署!一键本地搭建大模型+知识库,不挑环境、不挑配置