[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

发布人

本期code：https://github.com/chunhuizhang/bilibili_vlogs/blob/master/learn_torch/basics/activate_fn_gradient_sigmoid_relu_clamp.ipynb

打开封面下载高清视频观看高清视频视频下载器

[pytorch] 激活函数，从 ReLU、LeakyRELU 到 GELU 及其梯度（gradient）（BertLayer，FFN，GELU）

[pytorch] torch.nn.Bilinear 计算过程与 einsum（爱因斯坦求和约定）

[pytorch] [求导练习] 01 sigmoid 函数自动求导练习（autograd，单变量，多变量 multivariables 形式）

[手推公式] sigmoid 及其导数 softmax 及其导数性质（从 logits 到 probabilities）

[pytorch distributed] torch 分布式基础（process group），点对点通信，集合通信

[模型拓扑接口] 经典 RNN 模型（一）模型参数及训练参数的介绍

[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系

[pytorch optim] 优化器相关 AdaGrad（adaptive gradient）与 RMSprop，自适应梯度

[personal chatgpt] peft LoRA merge pipeline（lora inject，svd）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[pytorch] 深入理解 torch.gather 及 dim 与 index 的关系

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

[pytorch distributed] deepspeed 基本概念、原理（os+g+p）

[diffusion] 生成模型基础 VAE 原理及实现

[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新（forward，loss.backward(), optimizer.step）

[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程

【全100集】人工智能课程(理论+实战) 大模型学习路线及框架详解 pytorch transformer详解大模型rag ChatGLM llama微调

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch distributed] nccl 集合通信（collective communication）

[pytorch] Tensor shape 变化 view 与 reshape（contiguous 的理解）

[pytorch optim] pytorch 作为一个通用优化问题求解器（目标函数、决策变量）

[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法（BFGS）

[pytorch distributed] 03 DDP 初步应用（Trainer，torchrun）

超全超简单！一口气刷完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法！真的比刷剧还爽！

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[pytorch 模型拓扑结构] pytorch 矩阵乘法大全（torch.dot, mm, bmm, @, *, matmul）

[LLMs 实践] 13 gradient checkpointing 显存优化 trick

Justin Bieber 教你从零开始编写多模态大模型 1

[sbert 01] sentence-transformers pipeline

[DRL] 从策略梯度到 TRPO（Lagrange Duality，拉格朗日对偶性）

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[pytorch optim] 优化器相关 - learning rate scheduler

[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像

【全150集】人工智能课程(理论+实战)AI基础大模型多模态入门及原理！pytorch GPT transformer ChatGLM LLama大模型实战

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

B站强推！2024公认最通俗易懂的【PyTorch】教程，狂学人工智能必备数学基础课程（附代码） -人工智能_机器学习_高等数学

[全栈算法] docker nvidia pytorch gpu 环境及容器操作，端口号映射

[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程（nn.NLLLoss(nn.LogSoftmax))

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

[pytorch] 激活函数，从 ReLU、LeakyRELU 到 GELU 及其梯度（gradient）（BertLayer，FFN，GELU）

[pytorch] torch.nn.Bilinear 计算过程与 einsum（爱因斯坦求和约定）

[pytorch] [求导练习] 01 sigmoid 函数自动求导练习（autograd，单变量，多变量 multivariables 形式）

[手推公式] sigmoid 及其导数 softmax 及其导数性质（从 logits 到 probabilities）

[pytorch distributed] torch 分布式基础（process group），点对点通信，集合通信

[模型拓扑接口] 经典 RNN 模型（一）模型参数及训练参数的介绍

[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系

[pytorch optim] 优化器相关 AdaGrad（adaptive gradient） 与 RMSprop，自适应梯度

[personal chatgpt] peft LoRA merge pipeline（lora inject，svd）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[pytorch] 深入理解 torch.gather 及 dim 与 index 的关系

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

[pytorch distributed] deepspeed 基本概念、原理（os+g+p）

[diffusion] 生成模型基础 VAE 原理及实现

[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新（forward，loss.backward(), optimizer.step）

[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程

【全100集】人工智能课程(理论+实战) 大模型学习路线及框架详解 pytorch transformer详解 大模型rag ChatGLM llama微调

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch distributed] nccl 集合通信（collective communication）

[pytorch] Tensor shape 变化 view 与 reshape（contiguous 的理解）

[pytorch optim] pytorch 作为一个通用优化问题求解器（目标函数、决策变量）

[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法（BFGS）

[pytorch distributed] 03 DDP 初步应用（Trainer，torchrun）

超全超简单！一口气刷完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法！真的比刷剧还爽！

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[pytorch 模型拓扑结构] pytorch 矩阵乘法大全（torch.dot, mm, bmm, @, *, matmul）

[LLMs 实践] 13 gradient checkpointing 显存优化 trick

Justin Bieber 教你从零开始编写多模态大模型 1

[sbert 01] sentence-transformers pipeline

[DRL] 从策略梯度到 TRPO（Lagrange Duality，拉格朗日对偶性）

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[pytorch optim] 优化器相关 - learning rate scheduler

[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像

【全150集】人工智能课程(理论+实战)AI基础 大模型 多模态入门及原理！pytorch GPT transformer ChatGLM LLama大模型实战

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

B站强推！2024公认最通俗易懂的【PyTorch】教程，狂学人工智能必备数学基础课程（附代码） -人工智能_机器学习_高等数学

[全栈算法] docker nvidia pytorch gpu 环境及容器操作，端口号映射

[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程（nn.NLLLoss(nn.LogSoftmax))

[pytorch optim] 优化器相关 AdaGrad（adaptive gradient）与 RMSprop，自适应梯度

【全100集】人工智能课程(理论+实战) 大模型学习路线及框架详解 pytorch transformer详解大模型rag ChatGLM llama微调

【全150集】人工智能课程(理论+实战)AI基础大模型多模态入门及原理！pytorch GPT transformer ChatGLM LLama大模型实战