V
主页
京东 11.11 红包
[LLMs tuning] 04 optimizer Trainer 优化细节(AdamW,grad clip、Grad Norm)等
发布人
本期 code:https://github.com/chunhuizhang/llms_tuning/blob/main/tutorials/optimization_details.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
【晚妈】炫光也测了,iPhone16 Pro也比了,vivo X200 Pro mini交稿,选择权在你了
[pytorch optim] 优化器相关 - learning rate scheduler
[pytorch] BN、LN、RMSNorm 及 pre LN vs. post LN 对比,标准化
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
[pytorch distributed] 03 DDP 初步应用(Trainer,torchrun)
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用
[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新(forward,loss.backward(), optimizer.step)
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
[LLMs 实践] 07 fp16 与自动混合精度训练(amp)显著提升 batch size
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
[pytorch optim] Adam 与 AdamW,L2 reg 与 weight decay,deepseed
【白】Windows系统,我要狠狠地操作你🤤🤤…
【统计学】从置信水平(confidence level,置信区间)、Z值到最小采样数(最小抽样数)
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[数学!数学] 最大似然估计(MLE)与最小化交叉熵损失(cross entropy loss)的等价性
[pytorch distributed] accelerate 基本用法(config,launch)数据并行
[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI
当年手机消失那些“惊艳设计”你印象最深的是哪个?
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
【销量预测】R2(r_squared)与相关系数(correlation)的区别和联系,什么情况下R2=correlation,R2与MAE,RMSE
[LLMs 实践] 12 LLM SFT training (trl SFTTrainer、alpaca dataset)
【手推公式】从二分类到多分类,从sigmoid到softmax,从最大似然估计到 cross entropy
[数值计算] 快速计算、妙算对数,之对数表(logarithm table)的使用,如何将任意一个数转换为10-99,或0-0.99之间的可查表形式
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
【矩阵分析】矩阵范数(martix norm)&条件数(condition number),ill-conditioned,well-conditioned
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
【统计】从最小采样数到采样误差(从置信水平(confidence level,置信区间)、Z值到最小采样数(最小抽样数))
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[全栈深度学习] 02 vscode remote(远程)gpus 服务器开发调试 debugger(以 nanoGPT 为例)
[LLMs 实践] 04 PEFT/LoRA 源码分析
[LLMs 实践] 20 llama2 源码分析 cache KV(keys、values cache)加速推理
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
[调包侠] 04 使用预训练模型进行图像特征向量提取(image feature extractor,img2vec)并进行相似性计算
[动手写神经网络] 如何设计卷积核(conv kernel)实现降2采样,以及初探vggnet/resnet 卷积设计思路(不断降空间尺度,升channel)
【统计学】p-value(p值) 与 z-score(标准分/z得分/z分数)定义,计算以及适用场景
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
【搜索算法】【search】02 爬山算法(hill climbing)二维离散空间上的邻域搜索
[数值计算] 快速计算、秒算大数乘除运算,对数变换将乘除变为加减,再通过查表(logarithm table)获得10-99之间的对数值