V
主页
[概率 & 统计] Thompson Sampling(随机贝叶斯后验采样)与多臂老虎机
发布人
本期code:https://github.com/chunhuizhang/deeplearning_math/blob/main/tutorials/prob_stats/multi_armed_bandits_thompson_sampling.ipynb 从霍夫丁不等式到UCB:BV1xe411k7V1
打开封面
下载高清视频
观看高清视频
视频下载器
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
[蒙特卡洛方法] 02 重要性采样(importance sampling)及 python 实现
[generative models] 概率建模视角下的现代生成模型(生成式 vs. 判别式,采样与密度估计)
[概率统计] 将对数几率(logodds)引入到贝叶斯公式(bayes),后验对数几率=先验对数几率+似然对数几率
【统计学】从置信水平(confidence level,置信区间)、Z值到最小采样数(最小抽样数)
【贝叶斯分析】三门问题(蒙提霍尔悖论,Monty Hall problem)的三个解释及其 python 仿真验证
【抽样】蓄水池抽样(Reservoir sampling),长度为N的流式(streaming)或链表,每个样本被选中的概率为1/N
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
【抽样】蓄水池抽样(Reservoir sampling)(二),蓄水池容量为m,流式数据量为n,每个样本都等概率的m/n的被选中
【随机化算法】高纳德( Knuth)随机置乱算法,洗牌shuffle算法,任意序列等概率打乱顺序
[蒙特卡洛方法] 03 接受/拒绝采样(accept/reject samping)初步 cases 分析
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
【贝叶斯分析】三门问题的贝叶斯解释及其对于人生的启发(路径依赖+沉没成本,为什么说选择大于努力,方向大于坚持,何时调整人生的方向)
[概率 & 统计] KL 散度(KL div)forward vs. reverse
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
【矩阵分析】从特征值特征向量到矩阵SVD奇异值分解(np.linalg.svd)
新西兰厂妹的一天,真赶时间,赶时间的时候容易暴躁
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
[personal chatgpt] instructGPT 中的 reward modeling,概率建模与损失函数性质
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog(gpu burn,cpu burn)
[动手写神经网络] 手动实现 Transformer Encoder
【python 运筹优化】scipy.optimize.minimize 使用
【手推公式】从 logodds 到 sigmoid 概率化输出,用于 LR、XGBoost 的分类任务
【统计学】p-value(p值) 与 z-score(标准分/z得分/z分数)定义,计算以及适用场景
出息了,全公司唯一一台咖啡机在我工位上
已经取消关注了,好恶心🤢
[蒙特卡洛方法] 01 从黎曼和式积分(Reimann Sum)到蒙特卡洛估计(monte carlo estimation)求积分求期望
【数值计算】牛顿迭代法(Newton's method,Newton-Raphson method,牛顿-拉夫逊(拉弗森))计算二次方根(sqrt)三次方根
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
[pytorch] 激活函数(梯度消失)sigmoid,clamp,relu(sparse representation,dying relu)
[leetcode reviews] 01 计算思维与刷题方法
【统计】从最小采样数到采样误差(从置信水平(confidence level,置信区间)、Z值到最小采样数(最小抽样数))
[调包侠] 使用深度学习模型(paddlehub - humanseg)进行人物提取(前景提取、抠图)
[linux tools] tmux 分屏(终端复用器)
[LangChain] 06 基于LangGraph 实现 Reflexion Agent(generator vs. critic)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节