V
主页
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
发布人
本期 code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/drl/mdps_value_iteration.ipynb MDP 基础:BV1V94y1E7Pi
打开封面
下载高清视频
观看高清视频
视频下载器
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
【统计学】从置信水平(confidence level,置信区间)、Z值到最小采样数(最小抽样数)
【数值计算】牛顿迭代法(Newton's method,Newton-Raphson method,牛顿-拉夫逊(拉弗森))计算二次方根(sqrt)三次方根
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
【统计学】p-value(p值) 与 z-score(标准分/z得分/z分数)定义,计算以及适用场景
【机器学习】线性回归(linear regression)逻辑回归(logistics regression)特征重要性与 odds ratio
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
【手推公式】logistic regression 及其与 linear regression 的区别,对数线性与对数几率
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
【矩阵分析】从特征值特征向量到矩阵SVD奇异值分解(np.linalg.svd)
[LangChain] 03 LangGraph 基本概念(AgentState、StateGraph,nodes,edges)
【Python 运筹实战】指派问题assignment problem| 匈牙利算法(Hungarian algorithm)| scipy.optimize
【手推公式】从二分类到多分类,从sigmoid到softmax,从最大似然估计到 cross entropy
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
【高阶数据结构】布隆过滤器(Bloom Filter)误识别(false positive,伪阳)概率的计算
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
【数字图像处理】前景背景分割GrabCut实现(python-opencv)类似PhotoShop抠图的功能
【数据可视化】【excel】漏斗分析-漏斗图(funnel)与金字塔图(pyramid)的区别和联系
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
[调包侠] 使用深度学习模型(paddlehub - humanseg)进行人物提取(前景提取、抠图)
【运筹优化】CSP(约束满足最优化)| CP-SAT | domain reduction | constraint propagation
【搜索算法】【search】02 爬山算法(hill climbing)二维离散空间上的邻域搜索
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
[全栈算法工程师] 用 subprocess.Popen 执行 linux 命令
[动手写神经网络] 手动实现 Transformer Encoder
[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs
【会计】个人所得税速算扣除数的计算及推导
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[LLMs tuning] 03 llama3-8B instruct SFT on Financial RAG
[调包侠] tencent ailab 中文语料 embedding vector(word2vec)
【excel数据分析】幂律分布拟合城市GDP(幂律分布 vs. 指数分布 vs. 线性拟合 vs. 多项式拟合)