V
主页
多任务学习中数据不平衡问题的优化策略:预训练与联合微调
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 多任务学习中数据不平衡问题的优化策略:预训练与联合微调 【论文简述】 本文针对多任务学习中数据不平衡问题,提出了一种预训练与联合微调的方法。首先在高资源任务上进行预训练,然后在高/低资源任务的混合数据上进行联合微调。实验证明,该方法在神经机器翻译和多语言语言建模任务上,相比静态权重采样方法,能够更有效地提升低资源任务的性能。作者通过大量实验分析了该方法的优化机制,发现预训练能够为低资源任务提供更好的初始点,同时高资源任务的过采样有助于提高数据效率。此外,该方法还具有一定的正则化效果。总之,预训练与联合微调为解决多任务学习中的数据不平衡问题提供了一种简单而有效的方法。 【论文链接】 https://arxiv.org/abs/2312.06134
打开封面
下载高清视频
观看高清视频
视频下载器
官方出版!跟着计算机大佬一步步掌握ChatGLM+Langchain预训练\微调技术,建议大模型就业方向的同学多刷!
当前计算机行业热度超高的就业方向!北大博士后手把手带你从零到一掌握大模型预训练及微调,简直不要太好懂!
通用视觉基础模型:多任务学习实现高效零样本迁移
长上下文条件下的LoRa高效微调方法
AI人工智能-知识库和预训练微调
图神经网络何时预训练?从数据生成角度探讨
在语境学习中编辑事实知识:方法、策略与挑战
电商领域指令微调大模型
面向诚实的对齐:提升大型语言模型的知识边界意识
基于自然语言模型的离线强化学习框架LaMo
图像到视频迁移学习中空间和时间学习的解耦
人工智能大模型到底都有谁在学啊?这本适国人的大模型入门进阶神书速速收藏!
基于CapsFusion的高质量多模态预训练数据生成
FedKSeed:实现低通信开销的十亿级语言模型联合全参数微调
小型代理解决大型Transformer训练不稳定性问题
分布式大型语言模型的互联网低成本推理与微调
模型训练,从记忆到泛化的顿悟之旅
Alchemist:基于扩散模型的材质属性参数化控制
大模型开发人员-牛人难招
利用FP8低位数据格式高效地训练大型语言模型
安全训练与语言模型的鲁棒性: 对Llama 2-Chat进行潜在微调的风险评估
遥感数据的自监督学习方法CROMA的应用与优化
大规模语言模型的训练与优化研究
思想设计:破解复杂问题的关键
什么是套壳AI?读书人的事,不能算偷
【原创论文解读】VNN - 一种旋转等变的网络:解读与启发
TinyLlama:开源小型语言模型的新突破
一种基于全局优化的实时SLAM算法
文本驱动的视频生成模型的动态定制
Densely Captioned Images: 评估视觉语言模型的新基准
LLAMA PRO:基于Transformer块扩展的渐进式大型语言模型
CV强化论文分享20240530
多语言大型语言模型训练数据集CulturaX
SyncDreamer:基于单图像生成3D物体新方法
面向结构化数据的大模型推理框架
一种高效的后训练量化方法
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
多模态大模型CLIP/视觉十分钟/多模态/大模型
图像生成美学优化方法研究