[概率 & 统计] Thompson Sampling（随机贝叶斯后验采样）与多臂老虎机

发布人

本期code：https://github.com/chunhuizhang/deeplearning_math/blob/main/tutorials/prob_stats/multi_armed_bandits_thompson_sampling.ipynb
从霍夫丁不等式到UCB：BV1xe411k7V1

打开封面下载高清视频观看高清视频视频下载器

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[蒙特卡洛方法] 02 重要性采样（importance sampling）及 python 实现

[generative models] 概率建模视角下的现代生成模型（生成式 vs. 判别式，采样与密度估计）

[概率统计] 将对数几率（logodds）引入到贝叶斯公式（bayes），后验对数几率=先验对数几率+似然对数几率

【统计学】从置信水平（confidence level，置信区间）、Z值到最小采样数（最小抽样数）

【贝叶斯分析】三门问题（蒙提霍尔悖论，Monty Hall problem）的三个解释及其 python 仿真验证

【抽样】蓄水池抽样（Reservoir sampling），长度为N的流式（streaming）或链表，每个样本被选中的概率为1/N

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

【抽样】蓄水池抽样（Reservoir sampling）（二），蓄水池容量为m，流式数据量为n，每个样本都等概率的m/n的被选中

【随机化算法】高纳德（ Knuth）随机置乱算法，洗牌shuffle算法，任意序列等概率打乱顺序

[蒙特卡洛方法] 03 接受/拒绝采样（accept/reject samping）初步 cases 分析

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

[Python 机器学习] 深入理解 numpy（ndarray）的 axis（轴/维度）

【贝叶斯分析】三门问题的贝叶斯解释及其对于人生的启发（路径依赖+沉没成本，为什么说选择大于努力，方向大于坚持，何时调整人生的方向）

[概率 & 统计] KL 散度（KL div）forward vs. reverse

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

【矩阵分析】从特征值特征向量到矩阵SVD奇异值分解（np.linalg.svd）

新西兰厂妹的一天，真赶时间，赶时间的时候容易暴躁

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[动手写 Transformer] 手动实现 Transformer Decoder（交叉注意力，encoder-decoder cross attentio）

[personal chatgpt] instructGPT 中的 reward modeling，概率建模与损失函数性质

[bert、t5、gpt] 08 GPT2 sampling （top-k，top-p （nucleus sampling））

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog（gpu burn，cpu burn）

[动手写神经网络] 手动实现 Transformer Encoder

【python 运筹优化】scipy.optimize.minimize 使用

【手推公式】从 logodds 到 sigmoid 概率化输出，用于 LR、XGBoost 的分类任务

【统计学】p-value（p值）与 z-score（标准分/z得分/z分数）定义，计算以及适用场景

出息了，全公司唯一一台咖啡机在我工位上

已经取消关注了，好恶心🤢

[蒙特卡洛方法] 01 从黎曼和式积分（Reimann Sum）到蒙特卡洛估计（monte carlo estimation）求积分求期望

【数值计算】牛顿迭代法（Newton's method，Newton-Raphson method，牛顿-拉夫逊（拉弗森））计算二次方根（sqrt）三次方根

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

[leetcode reviews] 01 计算思维与刷题方法

【统计】从最小采样数到采样误差（从置信水平（confidence level，置信区间）、Z值到最小采样数（最小抽样数））

[调包侠] 使用深度学习模型（paddlehub - humanseg）进行人物提取（前景提取、抠图）

[linux tools] tmux 分屏（终端复用器）

[LangChain] 06 基于LangGraph 实现 Reflexion Agent（generator vs. critic）

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[概率 & 统计] Thompson Sampling（随机贝叶斯后验采样）与多臂老虎机

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[蒙特卡洛方法] 02 重要性采样（importance sampling）及 python 实现

[generative models] 概率建模视角下的现代生成模型（生成式 vs. 判别式，采样与密度估计）

[概率统计] 将对数几率（logodds）引入到贝叶斯公式（bayes），后验对数几率=先验对数几率+似然对数几率

【统计学】从置信水平（confidence level，置信区间）、Z值到最小采样数（最小抽样数）

【贝叶斯分析】三门问题（蒙提霍尔悖论，Monty Hall problem）的三个解释及其 python 仿真验证

【抽样】蓄水池抽样（Reservoir sampling），长度为N的流式（streaming）或链表，每个样本被选中的概率为1/N

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

【抽样】蓄水池抽样（Reservoir sampling）（二），蓄水池容量为m，流式数据量为n，每个样本都等概率的m/n的被选中

【随机化算法】高纳德（ Knuth）随机置乱算法，洗牌shuffle算法，任意序列等概率打乱顺序

[蒙特卡洛方法] 03 接受/拒绝采样（accept/reject samping）初步 cases 分析

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

[Python 机器学习] 深入理解 numpy（ndarray）的 axis（轴/维度）

【贝叶斯分析】三门问题的贝叶斯解释及其对于人生的启发（路径依赖+沉没成本，为什么说选择大于努力，方向大于坚持，何时调整人生的方向）

[概率 & 统计] KL 散度（KL div）forward vs. reverse

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

【矩阵分析】从特征值特征向量到矩阵SVD奇异值分解（np.linalg.svd）

新西兰厂妹的一天，真赶时间，赶时间的时候容易暴躁

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[动手写 Transformer] 手动实现 Transformer Decoder（交叉注意力，encoder-decoder cross attentio）

[personal chatgpt] instructGPT 中的 reward modeling，概率建模与损失函数性质

[bert、t5、gpt] 08 GPT2 sampling （top-k，top-p （nucleus sampling））

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog（gpu burn，cpu burn）

[动手写神经网络] 手动实现 Transformer Encoder

【python 运筹优化】scipy.optimize.minimize 使用

【手推公式】从 logodds 到 sigmoid 概率化输出，用于 LR、XGBoost 的分类任务

【统计学】p-value（p值） 与 z-score（标准分/z得分/z分数）定义，计算以及适用场景

出息了，全公司唯一一台咖啡机在我工位上

已经取消关注了，好恶心🤢

[蒙特卡洛方法] 01 从黎曼和式积分（Reimann Sum）到蒙特卡洛估计（monte carlo estimation）求积分求期望

【数值计算】牛顿迭代法（Newton's method，Newton-Raphson method，牛顿-拉夫逊（拉弗森））计算二次方根（sqrt）三次方根

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

[leetcode reviews] 01 计算思维与刷题方法

【统计】从最小采样数到采样误差（从置信水平（confidence level，置信区间）、Z值到最小采样数（最小抽样数））

[调包侠] 使用深度学习模型（paddlehub - humanseg）进行人物提取（前景提取、抠图）

[linux tools] tmux 分屏（终端复用器）

[LangChain] 06 基于LangGraph 实现 Reflexion Agent（generator vs. critic）

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

【统计学】p-value（p值）与 z-score（标准分/z得分/z分数）定义，计算以及适用场景