V
主页
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
发布人
本期code:https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/06_gpt2_overall.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
针脚还能在CPU上?带女儿安装AMD平台是什么体验
[动手写bert系列] BertSelfLayer 多头注意力机制(multi head attention)的分块矩阵实现
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
[LLM 番外] 自回归语言模型cross entropy loss,及 PPL 评估
[linux tools] tmux 分屏(终端复用器)
[GPT 番外] tied/share tensors wte与lm_head(GPT2LMHeadModel)
[调包侠] 使用 gensim 完成 word2vec 的计算,及 model.most_similar 的计算过程(positive,negative)
[bert、t5、gpt] 09 T5 整体介绍(t5-11b,T5ForConditionalGeneration)
[LLM && AIGC] visual chatgpt 01 认识 image captioning 及 blip model
[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析
[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state,pooler_output,hidden_state)
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
[LLMs 实践] 07 fp16 与自动混合精度训练(amp)显著提升 batch size
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
[动手写bert] bert pooler output 与 bert head
[pytorch] [求导练习] 02 softmax 函数自动求导练习(autograd,Jacobian matrix)
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer
[LLMs 实践] 10 预训练语料,mapping & streaming(load_dataset)
[数据可视化] 绘制交互式 3d plot(interactive 3d plot, Axes3d) z=f(x, y) (三维空间中的 surface)
[bert、t5、gpt] 04 构建 TransformerEncoderLayer(FFN 与 Layer Norm、skip connection)
[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs
【python 运筹】constraint satisfaction problems | 约束满足问题 | ortools.sat | cp_model
[数学!数学] 最大似然估计(MLE)与最小化交叉熵损失(cross entropy loss)的等价性
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query,key,value 的计算细节
[LLMs 实践] 06 LLaMA,Alpaca LoRA 7B 推理
[全栈深度学习] 02 vscode remote(远程)gpus 服务器开发调试 debugger(以 nanoGPT 为例)
[动手写 bert] masking 机制、bert head 与 BertForMaskedLM