V
主页
[动手写 bert] masking 机制、bert head 与 BertForMaskedLM
发布人
动手写bert系列:https://space.bilibili.com/59807853/channel/collectiondetail?sid=496538 pytorch系列:https://space.bilibili.com/59807853/channel/collectiondetail?sid=446911 code 地址:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/09_masked_lm.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
[动手写bert系列] BertSelfLayer 多头注意力机制(multi head attention)的分块矩阵实现
[动手写bert] bert pooler output 与 bert head
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[动手写 bert 系列] bert embedding 源码解析,word_embedding/position_embedding/token_type
[数据可视化] 绘制交互式 3d plot(interactive 3d plot, Axes3d) z=f(x, y) (三维空间中的 surface)
[动手写 bert 系列] Bert 中的(add & norm)残差连接与残差模块(residual connections/residual blocks)
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
[leetcode reviews] 01 计算思维与刷题方法
[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query,key,value 的计算细节
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False
[动手写神经网络] 02 逐行写代码 CNN pipeline 图像分类(模型结构、训练、评估)
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[动手写 bert 系列] BertTokenizer subword,wordpiece 如何处理海量数字等长尾单词
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids(mlm,nsp)
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
【python 运筹优化】scipy.optimize.minimize 使用
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
[GPT 番外] tied/share tensors wte与lm_head(GPT2LMHeadModel)
[调包侠] 使用深度学习模型(paddlehub - humanseg)进行人物提取(前景提取、抠图)
[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法(BFGS)
[generative models] 概率建模视角下的现代生成模型(生成式 vs. 判别式,采样与密度估计)
[工具的使用] python jupyter 环境安装配置拓展(nbextension)(ExcecuteTime:执行时间,Table of Content)
[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state,pooler_output,hidden_state)