[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward） - 视频下载 Video Downloader

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

发布人

本期code：https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/06_gpt2_overall.ipynb

打开封面下载高清视频观看高清视频视频下载器

[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI

[性能测试] 04 双4090 BERT、GPT性能测试（megatron-lm、apex、deepspeed）

[bert、t5、gpt] 08 GPT2 sampling （top-k，top-p （nucleus sampling））

针脚还能在CPU上？带女儿安装AMD平台是什么体验

[动手写bert系列] BertSelfLayer 多头注意力机制（multi head attention）的分块矩阵实现

[personal chatgpt] trl 基础介绍：reward model，ppotrainer

[bert、t5、gpt] 05 构建 TransformerDecoderLayer（FFN 与 Masked MultiHeadAttention）

[bert、t5、gpt] 07 GPT2 decoding （greedy search, beam search）

[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention（qkv）

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计

[LLM 番外] 自回归语言模型cross entropy loss，及 PPL 评估

[linux tools] tmux 分屏（终端复用器）

[GPT 番外] tied/share tensors wte与lm_head（GPT2LMHeadModel）

[调包侠] 使用 gensim 完成 word2vec 的计算，及 model.most_similar 的计算过程（positive，negative）

[bert、t5、gpt] 09 T5 整体介绍（t5-11b，T5ForConditionalGeneration）

[LLM && AIGC] visual chatgpt 01 认识 image captioning 及 blip model

[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析

[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False

[动手写Bert系列] bertencoder self attention 计算细节及计算过程

[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens（压缩词表），o200k_base

[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state，pooler_output，hidden_state)

[bert、t5、gpt] 11 知识蒸馏（knowledge distill）huggingface trainer pipeline

[LLMs 实践] 07 fp16 与自动混合精度训练（amp）显著提升 batch size

[BERT 番外] Sin Position Encoding 的简洁实现（RoPE 基础）

[动手写bert] bert pooler output 与 bert head

[pytorch] [求导练习] 02 softmax 函数自动求导练习（autograd，Jacobian matrix）

[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention

[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer

[LLMs 实践] 10 预训练语料，mapping & streaming（load_dataset）

[数据可视化] 绘制交互式 3d plot（interactive 3d plot, Axes3d） z=f(x, y) （三维空间中的 surface）

[bert、t5、gpt] 04 构建 TransformerEncoderLayer（FFN 与 Layer Norm、skip connection）

[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs

【python 运筹】constraint satisfaction problems | 约束满足问题 | ortools.sat | cp_model

[数学！数学] 最大似然估计（MLE）与最小化交叉熵损失（cross entropy loss）的等价性

[pytorch distributed] 04 模型并行（model parallel）on ResNet50

[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query，key，value 的计算细节

[LLMs 实践] 06 LLaMA，Alpaca LoRA 7B 推理

[全栈深度学习] 02 vscode remote（远程）gpus 服务器开发调试 debugger（以 nanoGPT 为例）

[动手写 bert] masking 机制、bert head 与 BertForMaskedLM