V
主页
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
发布人
本期 code:https://github.com/chunhuizhang/deeplearning_math/blob/main/tutorials/montecarlo/importance_sampling_2.ipynb 重要性采样基础:https://www.bilibili.com/video/BV1SV4y1i7bW/
打开封面
下载高清视频
观看高清视频
视频下载器
[蒙特卡洛方法] 02 重要性采样(importance sampling)及 python 实现
[generative models] 概率建模视角下的现代生成模型(生成式 vs. 判别式,采样与密度估计)
[蒙特卡洛方法] 01 从黎曼和式积分(Reimann Sum)到蒙特卡洛估计(monte carlo estimation)求积分求期望
[凸函数] convex 性质与简森不等式(jensen's inequality)与 ELBO、投资组合理论(Porfolio)
[蒙特卡洛方法] 03 接受/拒绝采样(accept/reject samping)初步 cases 分析
[DRL] 从策略梯度到 TRPO(Lagrange Duality,拉格朗日对偶性)
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[personal chatgpt] instructGPT 中的 reward modeling,概率建模与损失函数性质
[einops 01] einsum 补充与 einops 初步(实现 ViT 的图像分块)
[概率 & 统计] Thompson Sampling(随机贝叶斯后验采样)与多臂老虎机
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[调包侠] 04 使用预训练模型进行图像特征向量提取(image feature extractor,img2vec)并进行相似性计算
[动手写神经网络] 手动实现 Transformer Encoder
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
尼斯 摩纳哥 戛纳,三天慢生活闲逛体验~
【机器学习】线性回归(linear regression)逻辑回归(logistics regression)特征重要性与 odds ratio
[多元变量微分] 方向导数与梯度下降方法(directional derivatives)
[矩阵分析] 旋转矩阵的计算机与应用(复平面,RoPE)
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
[AI 核心概念及计算] 优化 01 梯度下降(gradient descent)与梯度上升(gradient ascent)细节及可视化分析
[LLMs 实践] 07 fp16 与自动混合精度训练(amp)显著提升 batch size
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[LLMs 实践] 19 llama2 源码分析 RoPE apply_rotary_emb 从绝对位置编码到相对位置编码
[personal chatgpt] peft LoRA merge pipeline(lora inject,svd)
【搜索算法】【search】01 python-astar 图上搜索(graph search)f(n)=g(n)+h(n)
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI
[动手写神经网络] 如何对数据集归一化(transforms.Normalize)以 mnist 数据集为例(mean=0.1307, std=0.3081)
[LLMs 实践] 04 PEFT/LoRA 源码分析
[A100 02] GPU 服务器压力测试,gpu burn,cpu burn,cuda samples
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[手推公式] sigmoid 及其导数 softmax 及其导数性质(从 logits 到 probabilities)
[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新(forward,loss.backward(), optimizer.step)
[程序员说金融] 对数回报率(收益率)及其性质(可加性,负对称性,及泰勒展开下的近似相等)