V
主页
京东 11.11 红包
【搜索算法】【search】02 爬山算法(hill climbing)二维离散空间上的邻域搜索
发布人
本期code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/search/02_hill_climbing_discrete_space.ipynb 搜索系列:https://space.bilibili.com/59807853/channel/collectiondetail?sid=979618
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
【python 信号与系统】02 scipy.signal.convolve2d 二维(图像)卷积及其与 CNN 的区别
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[数据可视化] 绘制交互式 3d plot(interactive 3d plot, Axes3d) z=f(x, y) (三维空间中的 surface)
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[flask web 核心] 02 使用 jinja 创建模板 html 及初步使用 bootstrap 丰富页面内容
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[数值计算] 快速计算、秒算大数乘除运算,对数变换将乘除变为加减,再通过查表(logarithm table)获得10-99之间的对数值
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
【搜索算法】【search】01 python-astar 图上搜索(graph search)f(n)=g(n)+h(n)
[mcts] 02 mcts from scartch(UCTNode,uct_search, pUCT,树的可视化)
[A100 02] GPU 服务器压力测试,gpu burn,cpu burn,cuda samples
[全栈算法] docker nvidia pytorch gpu 环境及容器操作,端口号映射
【矩阵分析】二维旋转矩阵的推导(极坐标/基变换)
[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法(BFGS)
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[数值计算] 快速计算、妙算对数,之对数表(logarithm table)的使用,如何将任意一个数转换为10-99,或0-0.99之间的可查表形式
[数据可视化] 绘制 z=f(x, y) (三维空间中的 surface)
【计算机视觉】从图像距离(图像相似性)的计算(ahash/dhash/phash/whash)到以图搜索的实现(deep ranking)(一)
[prompt engineering] 从 CoT 到 ToT(Tree of Thoughts)
[多元变量微分] 方向导数与梯度下降方法(directional derivatives)
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
【python 运筹优化】scipy.optimize.minimize 使用
[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer
[pygame Astar寻路算法可视化] 03 A star算法初始化及有效邻域的计算
[pytorch 模型拓扑结构] 深入理解 nn.BatchNorm2d/3d
[LLMs 实践] 07 fp16 与自动混合精度训练(amp)显著提升 batch size
[概率 & 统计] Thompson Sampling(随机贝叶斯后验采样)与多臂老虎机
[调包侠] 04 使用预训练模型进行图像特征向量提取(image feature extractor,img2vec)并进行相似性计算
[AI 核心概念及计算] 优化 01 梯度下降(gradient descent)与梯度上升(gradient ascent)细节及可视化分析
[DRL] 从策略梯度到 TRPO(Lagrange Duality,拉格朗日对偶性)
[LLMs 实践] 10 预训练语料,mapping & streaming(load_dataset)
[工具的使用] python jupyter 环境安装配置拓展(nbextension)(ExcecuteTime:执行时间,Table of Content)
【手推公式】logistic regression 及其与 linear regression 的区别,对数线性与对数几率
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
[LLMs 实践] 221 llama2 源码分析 generate 的完整过程
[python 全栈] python 装饰器(decorator)及 functools.cache
【Python 运筹实战】Python实战 |指派问题assignment problem| 匈牙利算法(Hungarian algorithm)