V
主页
[LLM+RL] 合成数据与model collapse,nature 正刊封面
发布人
本期 code:https://github.com/chunhuizhang/llm_rl/blob/main/tutorials/garbage_out.ipynb PPL:BV1ox4y147o1
打开封面
下载高清视频
观看高清视频
视频下载器
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
[pytorch] BN、LN、RMSNorm 及 pre LN vs. post LN 对比,标准化
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[LLM && AIGC] visual chatgpt 01 认识 image captioning 及 blip model
[personal chatgpt] trl reward model 与 RewardTrainer(奖励模型,分类模型)
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
[LLM 番外] 自回归语言模型cross entropy loss,及 PPL 评估
[LLMs 实践] 04 PEFT/LoRA 源码分析
【python 运筹优化】scipy.optimize.minimize 使用
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[模型拓扑结构] pytorch 注册钩子函数(register_forward_hook)实现对各个层(layer)输入输出 shape 的查看
[LLMs 实践] 17 llama2 源码分析(RMSNorm 与 SwiGLU)
[LLMs 实践] 221 llama2 源码分析 generate 的完整过程
[LLMs 实践] 20 llama2 源码分析 cache KV(keys、values cache)加速推理
[LangChain] 03 LangGraph 基本概念(AgentState、StateGraph,nodes,edges)
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[数据可视化] 绘制交互式 3d plot(interactive 3d plot, Axes3d) z=f(x, y) (三维空间中的 surface)
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[LLM & AIGC] 03 openai embedding (text-embedding-ada-002)基于 embedding 的文本语义匹配
[LLMs 实践] 03 LoRA fine-tune 大语言模型(peft、bloom 7b)
[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation(低秩逼近)
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[LLMs tuning] 03 llama3-8B instruct SFT on Financial RAG
[动手写神经网络] 手动实现 Transformer Encoder
[LLMs 实践] 07 fp16 与自动混合精度训练(amp)显著提升 batch size
[pytorch] 激活函数(梯度消失)sigmoid,clamp,relu(sparse representation,dying relu)
[调包侠] 使用 PyTorch Swin Transformer 完成图像分类
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
[数据可视化] 绘制 z=f(x, y) (三维空间中的 surface)
[diffusion] 生成模型基础 VAE 原理及实现
[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs
[LLM && AIGC] 05 OpenAI 长文本(long text,超出 max_tokens)处理及 summary,划分 chunk 处理
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)