V
主页
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
发布人
本期 code:https://github.com/chunhuizhang/llm_inference_serving/blob/main/tutorials/quantization/qlora_gptq_gguf_awq.ipynb https://github.com/chunhuizhang/llm_inference_serving/blob/main/tutorials/quantization/basics.ipynb 关于 llama3:BV15z42167yB,BV18E421A7TQ 关于 bfloat16:BV1no4y1u7og 关于 LLM.int8:BV1bX4y1e7a5
打开封面
下载高清视频
观看高清视频
视频下载器
吴恩达《深入模型量化|Quantization in Depth》中英字幕
NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化
大模型量化一网打尽(一)理论基础
模型量化一:量化基础 对称量化 非对称量化 极大值量化 零点量化
大语言模型量化简介
模型量化加速
模型量化六:QLoRA 4bit 量化 NormalFloat4 量化
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
Qwen1.5系列6个模型如何选择? AWQ还是GPTQ?#小工蚁
大模型量化一网打尽(三)实战
大模型瘦身技术 GGUF和GPTQ
[LLMs 实践] 08 LLM.int8 量化细节 (load_in_8bit)以及 bitsandbytes 库
AWQ和GPTQ大模型4bit量化 哪种算法更优?#小工蚁
AWQ大模型量化INT4比FP16 推理快2倍,GPU内存1/3
大模型操作 | 开源模型的量化,GGUF格式转换,Ollama识别
GPTQ&OBC:量化你的GPT【论文粗读·4】
【MIT的模型压缩与优化课程】12.3Transformer和LLM——LLM的量化:SmoothQuant和AWQ
如何将大模型快速转化为对应的GPTQ量化模型,十分钟快速拥有自己的GPTQ模型
大模型量化一网打尽四(awq源码)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[模型拓扑接口] 经典 RNN 模型(一)模型参数及训练参数的介绍
大模型量化一网打尽四(gptq源码)
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog(gpu burn,cpu burn)
[LLM & AIGC] 01 openai api 的简单介绍(文本生成/指令,图像生成)
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[MLSys2024] AWQ:用于LLM压缩和加速的激活感知权重量化
[手推公式] sigmoid 及其导数 softmax 及其导数性质(从 logits 到 probabilities)
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer
[stable diffusion] 01 本地安装及环境配置(diffusers, StableDiffusionPipeline, text2image)
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[AI Agent] llama_index RAG 原理及源码分析
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
[纳什荐书][生成式AI] 01 《GPT图解》导读
[全栈算法工程师系列] python deepcopy(深拷贝,clone,克隆)性能优化(浅拷贝+递归)
[AI Agent] function calling & tool uses 与 argument generation
[AI Agent] Agentic Reasoning & workflow工作流,及translation-agent 一个具体的 agent 项目