V
主页
LOGS第2024/06/15期 || 北京大学孟繁续:PiSSA--比LoRA收敛快,比QLoRA量化误差小的高效参数微调方法
发布人
参数高效微调方法LoRA和QLoRA被广泛用于减少训练所需的显存开销。然而我们发现1)LoRA和QLoRA的收敛速度很慢,最终效果也不如全参数微调。2)QLoRA存在量化误差,导致训练开始前能力下降。为了解决以上两个问题,本文提出了一种名为PiSSA:Principal Singular values and Singular vectors Adaption的方法,对原始模型进行奇异值分解,将得到的主奇异值和奇异向量用于初始化可训练的adapter,使用残留的部分初始化原始模型。仅仅改变初始化方式,PiSSA就在包括184M-70B的12个模型、5个NLG和8个NLU任务、1-128 ranks的对比中,全面超越LoRA/和QLoRA的效果。使用PiSSA的方法也十分方便,可以无需更改任何代码就将原来使用LoRA和QLoRA的项目切换为PiSSA微调,也可以使用https://github.com/GraphPKU/PiSSA提供的工具包自定义PiSSA的配置,相应工具包已合并进transformers/peft主分支。 孟繁续是北京大学的博士生,导师是张牧涵教授。研究兴趣为大模型高效微调、高效架构设计、高效推理。相关研究发表在CVPR,NeurIPS等会议上,个人主页:https://fxmeng.github.io
打开封面
下载高清视频
观看高清视频
视频下载器
LOGS 第2022/09/25期 || 中国科学技术大学 王翔: 图神经网络可解释性
2024NJUNLP夏令营-南京大学自然语言处理组(南大NLP)
最新开源大语言模型GLM-4模型详细教程—环境配置+模型微调+模型部署+效果展示
Aligner: 一种基于残差思想的大语言模型对齐器(组会分享)
LOGS第2023/07/15期|| 上海交通大学汪润中:图学习在组合优化问题的探索
LOGS第2024/06/15期 || 香港科技大学(广州)高子琪:基于离散傅立叶变换的大模型高效微调
LOGS第2024/03/23期 ||中国科学技术大学 王泓:利用Krylov recycling算法加速PDE数据集生成
LOGS第2024/03/02期 || 圣路易斯华盛顿大学刘昊:如何设计一个图通用模型?(ICLR'24 Spotlight)
【全748集】南京大学终于把AI大模型(LLM)讲清楚了!通俗易懂,2024最新内部版!拿走不谢,学不会我退出IT圈!
2024最新!最强图像分割SAM模型论文精读,带你解锁能够实现零样本泛化的分割任务,分割一切大模型!(视觉AI大模型/人工智能)
我居然只花两个小时搞懂了【Llama3模型】下载、配置、安装、功能调用、微调、量化、部署一条龙,简单高效!!!(大语言模型/人工智能课程)
吴恩达大模型系列教程:2024年6月 《构建你自己的数据库智能体|Building Your Own Database Agent》(附代码课件)
LOGS第2024/01/13期||新加坡管理大学 文志豪 :图增强低资源文本分类的提示微调
2024吴恩达LLM大模型教程《构建主动式RAG|Building Agentic RAG with LlamaIndex》中英字幕(附学习课件)
最新【Llama3】大模型微调、部署、量化,一小时教会你最强开源大模型,4000亿参数模型狙击GPT-4!!!(大语言模型/人工智能课程)
2024智源大会 零一万物 黄文灏 模型训练方法论及Yi-Large的实践
Andrej Karpathy《让我们复现GPT-2 (124M)|Let's reproduce GPT-2 (124M)》中英字幕
LOGS第2023/08/12期||KDD 2023 Best Paper Winner 孙相国 :提示学习在图神经网络中的探索
LOGS第20220903期:Jin DU 集合论初探:从如何选课到无限时间图灵机
超越GPT-4?最新【Llama3大模型】下载安装、功能调用、模型微调、量化部署一小时带你搞懂!4000亿参数最强开源大模型!!!(大语言模型/人工智能课程)
LOGS第2023/09/02期|| 复旦大学许嘉蓉:何时需要预训练图神经网络?
LOGS第2024/03/16期||中科院计算所 袁一歌: 偏微分方程驱动的泛化神经网络
LOGS第2023/12/02期||密歇根州立大学 毛海涛:图神经网络什么时候失效?
当前计算机行业热度超高的就业方向!北大博士后手把手带你从零到一掌握大模型预训练及微调,简直不要太好懂!
基于图神经网络的高效知识图谱推理技术
【全748集】字节大佬终于把 AI大模型(LLM)讲清楚了!通俗易懂,2024最新内部版,学完即就业!AGI商业化落地创业营,一门非常落地的AI大模型创业课!!
LOGS x 北邮GAMMA Lab|| 赵天宇:图神经网络的设计空间与开源算法库
LOGS 第2023/06/17期 || 香港中文大学杨萌林: 图学习&表示学习在双曲空间的回顾与新的探索
[ICLR2024] Skeleton-of-Thought: Prompting Large Language Models for Efficient Pa
吴恩达&langchain教程:《用LangGraph搭建智能体|AI Agents in LangGraph》/中英字幕(附代码课件)
【官方双语】ChatGPT背后是什么模型和原理?详细阐述decoder-only transformer模型!
QuakeBERT:利用地震领域专用大语言模型从社交媒体中分析震害
LOGS第2023/05/27期|| 香港科技大学李一鸣:高效动态图神经网络
LOGS第2023/06/03期|| 上海交通大学杨晨晓:连接MLP与GNN:探讨图神经网络天生的强大泛化性
LOGS第2023/03/05期||KDD 2022 Best Paper Award Winner 马菁:图学习与因果推断
LOGS第2023/10/21期|| 威斯康星麦迪逊大学曾语晨:低阶适应微调LoRA的表现力
如何使用AI+自动化工具playwright狂赚2000万美金
LOGS 第2022/07/09期 || 北京大学张牧涵:谱图神经网络有多强大?
【24年6月8日更新】免费ChatGPT4.0免梯子白嫖教程。国内如何使用教程。ChatGPT4o使用攻略。OpenAIChatGPT新手免注册使用教程。
LOGS第2023/04/22期|| 亚利桑那州立大学丁凯泽:数据高效的图学习