V
主页
模型量化六:QLoRA 4bit 量化 NormalFloat4 量化
发布人
模型量化六:QLoRA 4bit 量化 NormalFloat4 量化
打开封面
下载高清视频
观看高清视频
视频下载器
神经网络-量化与部署,进阶之路迟早要越过的大山
模型量化加速
大模型量化一网打尽(一)理论基础
大语言模型量化简介
【大模型量化】llama.cpp轻量化模型部署及量化
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
几百次大模型LoRA和QLoRA 微调实践的经验分享
模型量化一:量化基础 对称量化 非对称量化 极大值量化 零点量化
十分钟搞明白Adam和AdamW,SGD,Momentum,RMSProp,Adam,AdamW
QLORA大模型微调算法分析
Llama2+QLora微调大模型-超详细教程(适合小白)
【手把手带你实战HuggingFace Transformers-低精度训练篇】4bit量化与QLoRA模型训练
大语言模型量化损失测试 fp16/int8/int4成绩对比
大模型量化部署 解析当前应用较广的几种量化部署方案!
【研1基本功 (真的很简单)LoRA 低秩微调】大模型微调基本方法1 —— bonus "Focal loss"
大模型量化一网打尽(三)实战
第二十课:MoE
动画理解Pytorch 大模型分布式训练技术 DP,DDP,DeepSpeed ZeRO技术
零基础学习强化学习算法:ppo
大模型量化一网打尽四(gptq源码)
QLoRA:训练更大的GPT【论文粗读·5】
吴恩达《深入模型量化|Quantization in Depth》中英字幕
LLM微调方法总结:Freeze方法/P-Tuning/LoRA及QLoRA
QLoRA_02_算法原理_深入解析
Flash Attention 为什么那么快?原理讲解
模型量化五:LLM.int8() Bitsandbytes HuggingFace 默认大模型量化方法
Batch Normalization(批归一化)和 Layer Normalization(层归一化)的一些细节可能和你想的并不一样
模型量化四:量化感知训练 QAT pytorch里进行量化感知训练
三分钟学会大模型PEFT的LORA算法 lora_rank, lora_alpha
模型量化三:训练后静态量化 PTQ PTSQ pytorch里进行模型训练后静态量化
一层神经网络也可以拟合任意函数?
大模型预训练看这个视频就够了
模型量化二:训练后动态量化 PTQ PTDQ,pytorch里进行模型训练后动态量化
DPO (Direct Preference Optimization) 算法讲解
大模型修炼之道(一): Transformer Attention is all you need
AI 工程师都应该知道的GPU工作原理,TensorCore
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
10分钟搞明白如何设置大模型推理参数,top_k,top_p, temperature, num_beams。温度,beam search。
用梯度检查点来节省显存 gradient checkpointing
大模型修炼之道(三): Llama系列讲解 Llama1,Llama2, Llama3