V
主页
京东 11.11 红包
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
发布人
本期 code:https://github.com/chunhuizhang/llms_tuning/blob/main/tutorials/finetune/trl/collate_fn_formatting_func.ipynb LLM loss function:BV1ZA4m1w7D5,BV1ox4y147o1
打开封面
下载高清视频
观看高清视频
视频下载器
[LLMs tuning] 03 llama3-8B instruct SFT on Financial RAG
[LLMs 实践] 12 LLM SFT training (trl SFTTrainer、alpaca dataset)
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
[LLMs tuning] 06 多轮对话 qlora SFT(Multi-turn Conversation)
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[LLMs 实践] 03 LoRA fine-tune 大语言模型(peft、bloom 7b)
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[LLMs 实践] 11 gradient accumulation 显存优化 trick
[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析
[LLMs 实践] 21 llama2 源码分析 GQA:Grouped Query Attention
[LLMs 实践] 20 llama2 源码分析 cache KV(keys、values cache)加速推理
[LLMs 实践] 14 llama2 introduction 及 fine tune llama2(guanaco dataset)
[LLMs 实践] 04 PEFT/LoRA 源码分析
[pytorch] [求导练习] 05 计算图(computation graph)构建细节之 inplace operation(data与detach)
[全栈深度学习] 02 vscode remote(远程)gpus 服务器开发调试 debugger(以 nanoGPT 为例)
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[pytorch] [求导练习] 03 计算图(computation graph)及链式法则(chain rule)反向传播过程
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
【数字图像处理】HoG+SVM+NMS行人检测(pedestrian detection)(python-opencv)
[LLMs 实践] 07 fp16 与自动混合精度训练(amp)显著提升 batch size
[LangChain] 01 基础入门,LCEL 、Tool Use、RAG 以及 LangSmith
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
[prompt engineering] 从 CoT 到 ToT(Tree of Thoughts)
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[动手写神经网络] 如何设计卷积核(conv kernel)实现降2采样,以及初探vggnet/resnet 卷积设计思路(不断降空间尺度,升channel)
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[LLMs 实践] 17 llama2 源码分析(RMSNorm 与 SwiGLU)
[pytorch distributed] accelerate 基本用法(config,launch)数据并行
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
[pytorch] Tensor shape 变化 view 与 reshape(contiguous 的理解)
[LLMs tuning] 04 optimizer Trainer 优化细节(AdamW,grad clip、Grad Norm)等
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
【约束满足问题】AIMA | Chap 6 | CSP | AC-3 | Arc Consistency
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像
[personal chatgpt] trl rlhf PPOTrainer,原理分析与代码走读(OpenRLHF framework)