[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer

发布人

本期 code：
https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/tokenizer_basics.ipynb
https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/gpt2_train_tokenizer.ipynb

打开封面下载高清视频观看高清视频视频下载器

[LLMs 实践] 20 llama2 源码分析 cache KV（keys、values cache）加速推理

[LLMs 实践] 08 LLM.int8 量化细节（load_in_8bit）以及 bitsandbytes 库

[LLMs 实践] 07 fp16 与自动混合精度训练（amp）显著提升 batch size

[LLMs 实践] 02 LoRA（Low Rank Adaption）基本原理与基本概念，fine-tune 大语言模型

[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程

[LLMs inference] quantization 量化整体介绍（bitsandbytes、GPTQ、GGUF、AWQ）

[LLMs 实践] 04 PEFT/LoRA 源码分析

[LLMs 实践] 221 llama2 源码分析 generate 的完整过程

[LLMs 实践] 10 预训练语料，mapping & streaming（load_dataset）

[LLMs 实践] 14 llama2 introduction 及 fine tune llama2（guanaco dataset）

[LLMs 实践] 03 LoRA fine-tune 大语言模型（peft、bloom 7b）

[LLMs 实践] 11 gradient accumulation 显存优化 trick

[LLMs 实践] 12 LLM SFT training （trl SFTTrainer、alpaca dataset）

[LLMs 实践] 17 llama2 源码分析（RMSNorm 与 SwiGLU）

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[LLMs 实践] 13 gradient checkpointing 显存优化 trick

[LLMs 实践] 21 llama2 源码分析 GQA：Grouped Query Attention

[LLMs 实践] 18 llama2 源码分析 RoPE 相对位置编码的复数形式

[LLMs 实践] 19 llama2 源码分析 RoPE apply_rotary_emb 从绝对位置编码到相对位置编码

[LLM 番外] 自回归语言模型cross entropy loss，及 PPL 评估

[LLMs tuning] 05 StackLlama、SFT+DPO（代码组织、数据处理，pipeline）

[pytorch 网络模型结构] batchnorm train 及 eval 模式的差异及（running_mean, running_var）的计算细节

[动手写神经网络] 02 逐行写代码 CNN pipeline 图像分类（模型结构、训练、评估）

[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI

[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens（压缩词表），o200k_base

[LLMs 实践] 06 LLaMA，Alpaca LoRA 7B 推理

[损失函数设计] 为什么多分类问题损失函数用交叉熵损失，而不是 MSE

[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

[LLMs tuning] 04 optimizer Trainer 优化细节（AdamW，grad clip、Grad Norm）等

[Python 机器学习] 深入理解 numpy（ndarray）的 axis（轴/维度）

[LLMs tuning] 06 多轮对话 qlora SFT（Multi-turn Conversation）

RG train物理火车最新版安装教程。

[LLMs inference] hf transformers 中的 KV cache

[LLMs 实践] 15 llama2 源码初步（text completion & chat completion）

[bert、t5、gpt] 07 GPT2 decoding （greedy search, beam search）

[动手写神经网络] 06 自定义（kaggle）数据集（custom dataset）、Dataloader，及 train test valid 数据集拆分

[数据可视化] 绘制交互式 3d plot（interactive 3d plot, Axes3d） z=f(x, y) （三维空间中的 surface）

[LLMs tuning] 03 llama3-8B instruct SFT on Financial RAG

[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids（mlm，nsp）

[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer

[LLMs 实践] 20 llama2 源码分析 cache KV（keys、values cache）加速推理

[LLMs 实践] 08 LLM.int8 量化细节 （load_in_8bit）以及 bitsandbytes 库

[LLMs 实践] 07 fp16 与自动混合精度训练（amp）显著提升 batch size

[LLMs 实践] 02 LoRA（Low Rank Adaption）基本原理与基本概念，fine-tune 大语言模型

[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程

[LLMs inference] quantization 量化整体介绍（bitsandbytes、GPTQ、GGUF、AWQ）

[LLMs 实践] 04 PEFT/LoRA 源码分析

[LLMs 实践] 221 llama2 源码分析 generate 的完整过程

[LLMs 实践] 10 预训练语料，mapping & streaming（load_dataset）

[LLMs 实践] 14 llama2 introduction 及 fine tune llama2（guanaco dataset）

[LLMs 实践] 03 LoRA fine-tune 大语言模型（peft、bloom 7b）

[LLMs 实践] 11 gradient accumulation 显存优化 trick

[LLMs 实践] 12 LLM SFT training （trl SFTTrainer、alpaca dataset）

[LLMs 实践] 17 llama2 源码分析（RMSNorm 与 SwiGLU）

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[LLMs 实践] 13 gradient checkpointing 显存优化 trick

[LLMs 实践] 21 llama2 源码分析 GQA：Grouped Query Attention

[LLMs 实践] 18 llama2 源码分析 RoPE 相对位置编码的复数形式

[LLMs 实践] 19 llama2 源码分析 RoPE apply_rotary_emb 从绝对位置编码到相对位置编码

[LLM 番外] 自回归语言模型cross entropy loss，及 PPL 评估

[LLMs tuning] 05 StackLlama、SFT+DPO（代码组织、数据处理，pipeline）

[pytorch 网络模型结构] batchnorm train 及 eval 模式的差异及（running_mean, running_var）的计算细节

[动手写神经网络] 02 逐行写代码 CNN pipeline 图像分类（模型结构、训练、评估）

[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI

[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens（压缩词表），o200k_base

[LLMs 实践] 06 LLaMA，Alpaca LoRA 7B 推理

[损失函数设计] 为什么多分类问题损失函数用交叉熵损失，而不是 MSE

[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

[LLMs tuning] 04 optimizer Trainer 优化细节（AdamW，grad clip、Grad Norm）等

[Python 机器学习] 深入理解 numpy（ndarray）的 axis（轴/维度）

[LLMs tuning] 06 多轮对话 qlora SFT（Multi-turn Conversation）

RG train物理火车最新版安装教程。

[LLMs inference] hf transformers 中的 KV cache

[LLMs 实践] 15 llama2 源码初步（text completion & chat completion）

[bert、t5、gpt] 07 GPT2 decoding （greedy search, beam search）

[动手写神经网络] 06 自定义（kaggle）数据集（custom dataset）、Dataloader，及 train test valid 数据集拆分

[数据可视化] 绘制交互式 3d plot（interactive 3d plot, Axes3d） z=f(x, y) （三维空间中的 surface）

[LLMs tuning] 03 llama3-8B instruct SFT on Financial RAG

[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids（mlm，nsp）

[LLMs 实践] 08 LLM.int8 量化细节（load_in_8bit）以及 bitsandbytes 库