V
主页
[personal chatgpt] peft LoRA merge pipeline(lora inject,svd)
发布人
本期 code: lora_inject: https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/peft/lora_inject.ipynb lora_merge: https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/peft/lora_merge.ipynb svd 与 lora_merge: https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/peft/lora_svd_basics.ipynb 往期视频: 1. SVD:https://www.bilibili.com/video/BV1u54y12766/ 2. SVD 与 lora merge:https://www.bilibili.com/video/BV1XK421a75H/ 3. LORA 基础:https://www.bilibili.com/video/BV15T411477N/ 4. Lora 源码分析:https://www.bilibili.com/video/BV1sV4y1z7uS/
打开封面
下载高清视频
观看高清视频
视频下载器
[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation(低秩逼近)
[personal chatgpt] trl rlhf PPOTrainer,原理分析与代码走读(OpenRLHF framework)
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
[sbert 01] sentence-transformers pipeline
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
[LLMs 实践] 03 LoRA fine-tune 大语言模型(peft、bloom 7b)
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
[LLMs 实践] 14 llama2 introduction 及 fine tune llama2(guanaco dataset)
[AI Agent] Agentic Reasoning & workflow工作流,及translation-agent 一个具体的 agent 项目
【python 运筹优化】scipy.optimize.minimize 使用
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
[LLMs tuning] 03 llama3-8B instruct SFT on Financial RAG
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[python 全栈] python 装饰器(decorator)及 functools.cache
【python番外】python函数式编程与闭包与yield关键字
【手推公式】odds(几率)与对数几率(logodds)在logistics regression及xgboost classification中的应用
[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析
[gpt2 番外] training vs. inference(generate),PPL 计算,交叉熵损失与 ignore_index
【计算机视觉】从图像距离(图像相似性)的计算(ahash/dhash/phash/whash)到以图搜索的实现(deep ranking)(一)
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
[调包侠] tencent ailab 中文语料 embedding vector(word2vec)
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[凸函数] convex 性质与简森不等式(jensen's inequality)与 ELBO、投资组合理论(Porfolio)
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[mcts] 02 mcts from scartch(UCTNode,uct_search, pUCT,树的可视化)
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
【手推公式】logistic regression 及其与 linear regression 的区别,对数线性与对数几率
【python 运筹优化】scipy.optimize.minimize 接口介绍(method、jacobian、hessian)| 有约束非线性优化
[personal chatgpt] trl reward model 与 RewardTrainer(奖励模型,分类模型)
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
[A100 02] GPU 服务器压力测试,gpu burn,cpu burn,cuda samples
【机器学习中的数学】【无穷级数】1/n^p(p-series)收敛性的证明
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)