V
主页
长上下文条件下的LoRa高效微调方法
发布人
论文简述:在《LongLoRA: Efficient Fine-tuning of Long-context Large Language Models》这篇论文中,作者提出了一种名为LongLoRA的高效微调方法,该方法可以在有限的计算成本下扩展预训练大型语言模型(LLM)的上下文大小。通常,使用长上下文大小的LLM进行训练具有较高的计算成本,需要大量的训练时间和GPU资源。例如,在上下文长度为8192的情况下,自我注意力层的训练所需计算成本是2048倍的。在这篇论文中,我们从两个方面加速了LLM的上下文扩展:首先,尽管在推理过程中需要密集全局注意力,但模型的微调可以通过稀疏局部注意力有效地且高效地进行。所提出的移位短注意力有效实现了上下文扩展,从而在性能上取得了非平凡的计算节省,与使用稀疏局部注意力和密集全局注意力进行微调的性能相似。特别是在训练中只需实现两行代码,而在推理中是可选的。其次,我们重新审视了用于上下文扩展的参数高效微调范围。值得注意的是,我们发现LoRA用于上下文扩展在可训练嵌入和归一化的前提下效果良好。LongLoRA在各种任务上展示了强大的实证结果,适用于LLama2模型从7B/13B到70B的各种任务。LongLoRA可以在单个8x A100机器上将LLAMA2 7B的上下文从4k扩展到100k,或将LLAMA2 70B的上下文从32k扩展到100k。为了使LongLoRA实用化,作者收集了一个名为LongQA的数据集,用于监督微调。该数据集包含超过3000个长上下文问题的答案对。 arXiv ID: 2309.12307
打开封面
下载高清视频
观看高清视频
视频下载器
【喂饭教程】8分钟学会微调大模型Qwen2,环境配置+模型微调+模型部署+效果展示详细教程!草履虫都能学会~
【豆瓣9.4】本书有纯粹的LLM微调的入门知识,绝非推广AWS
【大模型技术教程】大模型在垂直领域的微调与数据处理,煤矿安全大模型基于免费的glm-4-flash,工作效率事半功倍!
手把手教你微调llama3增强中文+微调垂直领域法律大模型
【全集188集】深度学习必看圣经!李沐大神《动手学深度学习》最新版全套视频教程分享,比啃书高效!看完直接跑通!(深度学习/神经网络/计算机视觉)
Dify AI 教程:知识库图像检索与展示
多任务学习中数据不平衡问题的优化策略:预训练与联合微调
一颗CV视觉AI领域的重磅炸弹!仅更改一行代码就让YOLOV11成为了最成熟、效果最好的目标检测模型!
MiniMind上手使用视频
DeepSeek缓存命中技术,成本降低10倍
研一研二实用【Matlab论文复现】,原文解读+代码复现+手推公式,一小时快速掌握!!!(matlab机器学习/matlab神经网络/人工智能)
上下文信息驱动的实体重要度检测方法
最新QWEN2.5大模型详细教程-环境配置、模型下载、本地数据库、RAG增强
DragVideo: 交互式拖拽式视频编辑
层次规划组合基础模型研究
AI奇妙夜:缓解多模态大模型中使用裁剪策略增大分辨率的“后遗症”
基于自然语言模型的离线强化学习框架LaMo
史上最大危机!人工智能的第二次大低谷究竟有多惨?
研究生竟然这样找创新点?一年水了5篇SCI!不需要脑子的5大创新点套路,研一研二必看!
闪电注意力-2:大型语言模型处理无限序列长度的高效方法
全流程:机器学习之可解释性分析-SHAP值,彻底了解每个图的含义 特征重要性-特征交互
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
【强推】B站最全的【Transformer教程】中科院56集付费课程,最适合新手入门Transformer模型实战系列,绝对通俗易懂!
刚刚研一,深度学习直接上花书吗?需要先学机器学习吗?感觉东西很多不知道怎么去学,有没有学习路线?
聚类分析到底是什么?一个视频讲清楚,什么是聚类分析、聚类分析流程、主要聚类方法!
一张图替换视频人物 阿里发布MIMO 效果堪称变态级 从此无需3D模型
GPT-o1极速实测 | OpenAI全新大模型 | 数学编程能力测试 | GPT4o vs GPTo1哪家强
手把手带你搭建Agent智能体!从零到一超详细原理微调讲解+代码解析项目实战,毛毛虫都能学清楚!---RAG,prompt,微调,Agent(附课件+教程)
使用Ollama在本地搭建自己的AI私人助理
【AI大模型】使用Ollama+Dify搭建一个全能知识库!专属自己!支持多种文件类型,实现本地化大型模型部署,效果非凡!
【AI Drive】AAAI 2021:文本对抗攻防中的对抗训练方法
文本到图像一致性模型的有条件控制策略研究
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss
反向更新的数学原理
多模态RAG:结合 Qwen-2-VL和ColPali实现pdf文献图表检索 突破传统rag图表文献识别挑战
【课件+代码】李沐大神《动手学深度学习》2024最新视频教程,比啃书高效!比刷剧还爽!(人工智能丨深度学习丨神经网络)
一本中文书!解决几乎所有机器学习问题!
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
新手如何学习大语言模型,从个人角度谈一谈(基础,论文,代码等等)
电商领域指令微调大模型