长上下文条件下的LoRa高效微调方法

发布人

论文简述：在《LongLoRA: Efficient Fine-tuning of Long-context Large Language Models》这篇论文中，作者提出了一种名为LongLoRA的高效微调方法，该方法可以在有限的计算成本下扩展预训练大型语言模型（LLM）的上下文大小。通常，使用长上下文大小的LLM进行训练具有较高的计算成本，需要大量的训练时间和GPU资源。例如，在上下文长度为8192的情况下，自我注意力层的训练所需计算成本是2048倍的。在这篇论文中，我们从两个方面加速了LLM的上下文扩展：首先，尽管在推理过程中需要密集全局注意力，但模型的微调可以通过稀疏局部注意力有效地且高效地进行。所提出的移位短注意力有效实现了上下文扩展，从而在性能上取得了非平凡的计算节省，与使用稀疏局部注意力和密集全局注意力进行微调的性能相似。特别是在训练中只需实现两行代码，而在推理中是可选的。其次，我们重新审视了用于上下文扩展的参数高效微调范围。值得注意的是，我们发现LoRA用于上下文扩展在可训练嵌入和归一化的前提下效果良好。LongLoRA在各种任务上展示了强大的实证结果，适用于LLama2模型从7B/13B到70B的各种任务。LongLoRA可以在单个8x A100机器上将LLAMA2 7B的上下文从4k扩展到100k，或将LLAMA2 70B的上下文从32k扩展到100k。为了使LongLoRA实用化，作者收集了一个名为LongQA的数据集，用于监督微调。该数据集包含超过3000个长上下文问题的答案对。
arXiv ID： 2309.12307

打开封面下载高清视频观看高清视频视频下载器

长上下文条件下的LoRa高效微调方法

【喂饭教程】8分钟学会微调大模型Qwen2，环境配置+模型微调+模型部署+效果展示详细教程！草履虫都能学会~

【豆瓣9.4】本书有纯粹的LLM微调的入门知识，绝非推广AWS

【大模型技术教程】大模型在垂直领域的微调与数据处理，煤矿安全大模型基于免费的glm-4-flash，工作效率事半功倍！

手把手教你微调llama3增强中文+微调垂直领域法律大模型

【全集188集】深度学习必看圣经！李沐大神《动手学深度学习》最新版全套视频教程分享，比啃书高效！看完直接跑通！（深度学习/神经网络/计算机视觉）

Dify AI 教程：知识库图像检索与展示

多任务学习中数据不平衡问题的优化策略：预训练与联合微调

一颗CV视觉AI领域的重磅炸弹！仅更改一行代码就让YOLOV11成为了最成熟、效果最好的目标检测模型！

MiniMind上手使用视频

DeepSeek缓存命中技术，成本降低10倍

研一研二实用【Matlab论文复现】，原文解读+代码复现+手推公式，一小时快速掌握！！！（matlab机器学习/matlab神经网络/人工智能）

上下文信息驱动的实体重要度检测方法

最新QWEN2.5大模型详细教程-环境配置、模型下载、本地数据库、RAG增强

DragVideo: 交互式拖拽式视频编辑

层次规划组合基础模型研究

AI奇妙夜：缓解多模态大模型中使用裁剪策略增大分辨率的“后遗症”

基于自然语言模型的离线强化学习框架LaMo

史上最大危机！人工智能的第二次大低谷究竟有多惨？

研究生竟然这样找创新点？一年水了5篇SCI！不需要脑子的5大创新点套路，研一研二必看！

闪电注意力-2：大型语言模型处理无限序列长度的高效方法

全流程：机器学习之可解释性分析-SHAP值，彻底了解每个图的含义 特征重要性-特征交互

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

【强推】B站最全的【Transformer教程】中科院56集付费课程，最适合新手入门Transformer模型实战系列，绝对通俗易懂！

刚刚研一，深度学习直接上花书吗？需要先学机器学习吗？感觉东西很多不知道怎么去学，有没有学习路线？

聚类分析到底是什么？一个视频讲清楚，什么是聚类分析、聚类分析流程、主要聚类方法！

一张图替换视频人物 阿里发布MIMO 效果堪称变态级 从此无需3D模型

GPT-o1极速实测 | OpenAI全新大模型 | 数学编程能力测试 | GPT4o vs GPTo1哪家强

手把手带你搭建Agent智能体！从零到一超详细原理微调讲解+代码解析项目实战，毛毛虫都能学清楚！---RAG,prompt,微调，Agent（附课件+教程）

使用Ollama在本地搭建自己的AI私人助理

【AI大模型】使用Ollama+Dify搭建一个全能知识库！专属自己！支持多种文件类型，实现本地化大型模型部署，效果非凡！

【AI Drive】AAAI 2021：文本对抗攻防中的对抗训练方法

文本到图像一致性模型的有条件控制策略研究

In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss

反向更新的数学原理

多模态RAG:结合 Qwen-2-VL和ColPali实现pdf文献图表检索 突破传统rag图表文献识别挑战

【课件+代码】李沐大神《动手学深度学习》2024最新视频教程，比啃书高效！比刷剧还爽！（人工智能丨深度学习丨神经网络）

一本中文书！解决几乎所有机器学习问题！

单张图像到3D的高效生成：基于分摊生成的3D高斯模型

新手如何学习大语言模型，从个人角度谈一谈（基础，论文，代码等等）

电商领域指令微调大模型

全流程：机器学习之可解释性分析-SHAP值，彻底了解每个图的含义特征重要性-特征交互

一张图替换视频人物阿里发布MIMO 效果堪称变态级从此无需3D模型

多模态RAG:结合 Qwen-2-VL和ColPali实现pdf文献图表检索突破传统rag图表文献识别挑战