[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids（mlm，nsp） - 视频下载 Video Downloader

[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids（mlm，nsp）

发布人

https://github.com/chunhuizhang/bilibili_vlogs/tree/master/hugface

打开封面下载高清视频观看高清视频视频下载器

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False

[动手写bert系列] BertSelfLayer 多头注意力机制（multi head attention）的分块矩阵实现

[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state，pooler_output，hidden_state)

[动手写 bert 系列] bert embedding 源码解析，word_embedding/position_embedding/token_type

[动手写bert] bert pooler output 与 bert head

[动手写 bert 系列] Bert 中的（add & norm）残差连接与残差模块（residual connections/residual blocks）

[动手写Bert系列] bertencoder self attention 计算细节及计算过程

[性能测试] 04 双4090 BERT、GPT性能测试（megatron-lm、apex、deepspeed）

[动手写 bert 系列] BertTokenizer subword，wordpiece 如何处理海量数字等长尾单词

[bert、t5、gpt] 11 知识蒸馏（knowledge distill）huggingface trainer pipeline

[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计

[动手写神经网络] 如何设计卷积核（conv kernel）实现降2采样，以及初探vggnet/resnet 卷积设计思路（不断降空间尺度，升channel）

[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention（qkv）

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens（压缩词表），o200k_base

[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog（gpu burn，cpu burn）

[全栈深度学习] 02 vscode remote（远程）gpus 服务器开发调试 debugger（以 nanoGPT 为例）

[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention

[bert、t5、gpt] 04 构建 TransformerEncoderLayer（FFN 与 Layer Norm、skip connection）

[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query，key，value 的计算细节

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[数据可视化] 绘制交互式 3d plot（interactive 3d plot, Axes3d） z=f(x, y) （三维空间中的 surface）

[Python 机器学习] 深入理解 numpy（ndarray）的 axis（轴/维度）

[LLMs 实践] 13 gradient checkpointing 显存优化 trick

腾讯会要我吗？只用200行Python代码写了一个天天酷跑游戏

[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力

[调包侠] 使用 gensim 完成 word2vec 的计算，及 model.most_similar 的计算过程（positive，negative）

[bert、t5、gpt] 05 构建 TransformerDecoderLayer（FFN 与 Masked MultiHeadAttention）

[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新（forward，loss.backward(), optimizer.step）

[bert、t5、gpt] 07 GPT2 decoding （greedy search, beam search）

[BERT 番外] Sin Position Encoding 的简洁实现（RoPE 基础）

[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer

[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析

[LLMs 实践] 21 llama2 源码分析 GQA：Grouped Query Attention

[python 运筹优化] 系统性介绍 scipy 中的非线性最小二乘（NNLS, curve_fit, least_squares）

[personal chatgpt] trl 基础介绍：reward model，ppotrainer

[蒙特卡洛方法] 02 重要性采样（importance sampling）及 python 实现

【约束满足问题】AIMA | Chap 6 | CSP | AC-3 | Arc Consistency