V
主页
FedKSeed:实现低通信开销的十亿级语言模型联合全参数微调
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 FedKSeed:实现低通信开销的十亿级语言模型联合全参数微调 【论文简述】 本文提出了一种新颖的联邦学习(FL)方法FedKSeed,实现了对十亿级语言模型(LLMs)的全参数微调,同时将通信开销降低到每轮仅18KB。FedKSeed采用零阶优化(ZOO)技术,利用随机种子生成微调中的扰动。通过仅传输K个种子及其对应的标量梯度,FedKSeed在服务器和客户端之间实现了高效的通信。此外,本文还提出了一种非均匀种子采样策略,以评估ZOO扰动的重要性,从而加速模型同步并提高准确性。实验结果表明,FedKSeed在六个不同场景下,与其他联邦微调方法相比,具有更高的通信效率和新任务泛化性能。 【论文链接】 https://arxiv.org/abs/2312.06353
打开封面
下载高清视频
观看高清视频
视频下载器
分布式大型语言模型的互联网低成本推理与微调
基于认知树的小型语言模型推理能力提升
开源指令生成:用开源代码提升代码生成模型性能
基于语言模型的知识探测和推理方法
基于自然语言模型的离线强化学习框架LaMo
Amortizing intractable inference in large language models
SPHINX: 一种多模态大语言模型的联合混合方法
通用视觉基础模型:多任务学习实现高效零样本迁移
基于奖励引导的语言模型路由方法Zooter的研究与展望
PromptBench:全面评估大型语言模型的统一框架
对比激活添加:精确操控大型语言模型行为的新方法
文本驱动的视频生成模型的动态定制
Densely Captioned Images: 评估视觉语言模型的新基准
“我要这样”:结合大型语言模型与约束编程实现交互式决策支持
大型语言模型如何从网络上的信息中辨别真假?
语言模型+三维世界:下一代AI助手来了
解释性语言模型特征发现
LLAMA PRO:基于Transformer块扩展的渐进式大型语言模型
Alchemist:基于扩散模型的材质属性参数化控制
Interactive Task Planning with Language Models
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
多任务学习中数据不平衡问题的优化策略:预训练与联合微调
电商领域指令微调大模型
大规模语言模型的Transformer架构及其批处理技术
基于语言模型的在线纠错和知识检索系统DROC在机器人任务泛化中的应用
ICCV 2023 通过语言引导实现持续学习
Memory Augmented Language Models through Mixture of Word Experts
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
BitNet: Scaling 1-bit Transformers for Large Language Models
安全训练与语言模型的鲁棒性: 对Llama 2-Chat进行潜在微调的风险评估
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations
利用FP8低位数据格式高效地训练大型语言模型
语义压缩:扩展大型语言模型的上下文窗口
Language Models can be Logical Solvers
LLaVA-Grounding:实现大型多模态模型的基于视觉的聊天
语言模型对齐新方法:基于对比不似然训练的判断反馈
【AI Drive】WWW 2021:基于隐私保护的模型联邦个性化
不得不看的Mamba实证研究:英伟达、普林斯顿等联合出品,首创80亿参数Mamba+注意力互补新变体
【AI Drive】ACL 2021:利用对比学习增强预训练语言模型的实体与实体间关系理解