V
主页
[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state,pooler_output,hidden_state)
发布人
https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/05_model_outputs.ipynb https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertModel
打开封面
下载高清视频
观看高清视频
视频下载器
[动手写bert] bert pooler output 与 bert head
[动手写bert系列] BertSelfLayer 多头注意力机制(multi head attention)的分块矩阵实现
[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids(mlm,nsp)
[动手写 bert 系列] Bert 中的(add & norm)残差连接与残差模块(residual connections/residual blocks)
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[动手写 bert 系列] BertTokenizer subword,wordpiece 如何处理海量数字等长尾单词
[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[bert、t5、gpt] 09 T5 整体介绍(t5-11b,T5ForConditionalGeneration)
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
[动手写 bert 系列] bert embedding 源码解析,word_embedding/position_embedding/token_type
[pytorch] [求导练习] 06 计算图(computation graph)细节之 retain graph(multi output/backwar)
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[bert、t5、gpt] 04 构建 TransformerEncoderLayer(FFN 与 Layer Norm、skip connection)
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[动手写神经网络] 如何对数据集归一化(transforms.Normalize)以 mnist 数据集为例(mean=0.1307, std=0.3081)
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
【机器学习中的数学】【概率论】正态分布的导数与拐点(inflection points)
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
[LangChain] 05 LangChain、LangGraph 结构化输出(Structured output),gpt-4o-2024-08-06
[AI 核心概念及计算] 优化 01 梯度下降(gradient descent)与梯度上升(gradient ascent)细节及可视化分析
[全栈算法工程师系列] python deepcopy(深拷贝,clone,克隆)性能优化(浅拷贝+递归)
[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析
[pytorch distributed] 03 DDP 初步应用(Trainer,torchrun)
[调包侠] tencent ailab 中文语料 embedding vector(word2vec)
[leetcode reviews] FSM 有限状态机导论(交通灯,考拉兹猜想 Collatz conjecture)
【手推公式】指数族分布(exponential family distribution),伯努利分布及高斯分布的推导
[pytorch] 多项式分布及采样(torch.multinomial, torch distribution Categorical)
【python 运筹优化】scipy.optimize.minimize 使用
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系