V
主页
[mcts] 01 mcts 基本概念基本原理(UCB)及两个示例
发布人
本期 code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/drl/mcts/mcts_01_intro_bascis.ipynb 多臂老虎机与UCB:https://www.bilibili.com/video/BV1Ga4y167ux/
打开封面
下载高清视频
观看高清视频
视频下载器
[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
[LangChain] 03 LangGraph 基本概念(AgentState、StateGraph,nodes,edges)
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[机器学习理论] 霍夫丁不等式(hoeffding's inequality)到 UCB
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[mcts] 02 mcts from scartch(UCTNode,uct_search, pUCT,树的可视化)
[AI 核心概念及计算] 优化 01 梯度下降(gradient descent)与梯度上升(gradient ascent)细节及可视化分析
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
【运筹】【整数规划】outer approximation 求解 MINLP及示例
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
[leetcode reviews] 01 计算思维与刷题方法
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[PyTorch] Dropout 基本原理(前向计算与自动求导)
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[pytorch distributed] 02 DDP 基本概念(Ring AllReduce,node,world,rank,参数服务器)
[AI Agent] llama_index RAG 原理及源码分析
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[程序员说金融] LPR(基准利率)概念(数据获取),你的房贷利率降了吗
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[动手写神经网络] 手动实现 Transformer Encoder
[LangChain] 01 基础入门,LCEL 、Tool Use、RAG 以及 LangSmith
[调包侠] 使用深度学习模型(paddlehub - humanseg)进行人物提取(前景提取、抠图)
[generative models] 概率建模视角下的现代生成模型(生成式 vs. 判别式,采样与密度估计)
[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog(gpu burn,cpu burn)
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[五分钟系列] 01 gensim embedding vectors 距离及可视化分析
[蒙特卡洛方法] 01 从黎曼和式积分(Reimann Sum)到蒙特卡洛估计(monte carlo estimation)求积分求期望
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
[python nlp] 01 词频分析与 Zipf law 齐夫定律(log-log plot)
[程序员说金融] 等额本息概念及计算(月供还款分析:月供本金,月供利息)
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[pytorch] [求导练习] 01 sigmoid 函数自动求导练习(autograd,单变量,多变量 multivariables 形式)
[python 多进程、多线程以及协程] 01 关于进程(multiprocessing,pid、ppid)
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[蒙特卡洛方法] 02 重要性采样(importance sampling)及 python 实现