FedKSeed：实现低通信开销的十亿级语言模型联合全参数微调

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 FedKSeed：实现低通信开销的十亿级语言模型联合全参数微调
【论文简述】 本文提出了一种新颖的联邦学习（FL）方法FedKSeed，实现了对十亿级语言模型（LLMs）的全参数微调，同时将通信开销降低到每轮仅18KB。FedKSeed采用零阶优化（ZOO）技术，利用随机种子生成微调中的扰动。通过仅传输K个种子及其对应的标量梯度，FedKSeed在服务器和客户端之间实现了高效的通信。此外，本文还提出了一种非均匀种子采样策略，以评估ZOO扰动的重要性，从而加速模型同步并提高准确性。实验结果表明，FedKSeed在六个不同场景下，与其他联邦微调方法相比，具有更高的通信效率和新任务泛化性能。
【论文链接】 https://arxiv.org/abs/2312.06353

打开封面下载高清视频观看高清视频视频下载器

FedKSeed：实现低通信开销的十亿级语言模型联合全参数微调

分布式大型语言模型的互联网低成本推理与微调

基于认知树的小型语言模型推理能力提升

开源指令生成：用开源代码提升代码生成模型性能

基于语言模型的知识探测和推理方法

基于自然语言模型的离线强化学习框架LaMo

Amortizing intractable inference in large language models

SPHINX: 一种多模态大语言模型的联合混合方法

通用视觉基础模型：多任务学习实现高效零样本迁移

基于奖励引导的语言模型路由方法Zooter的研究与展望

PromptBench：全面评估大型语言模型的统一框架

对比激活添加：精确操控大型语言模型行为的新方法

文本驱动的视频生成模型的动态定制

Densely Captioned Images: 评估视觉语言模型的新基准

“我要这样”：结合大型语言模型与约束编程实现交互式决策支持

大型语言模型如何从网络上的信息中辨别真假？

语言模型+三维世界:下一代AI助手来了

解释性语言模型特征发现

LLAMA PRO：基于Transformer块扩展的渐进式大型语言模型

Alchemist：基于扩散模型的材质属性参数化控制

Interactive Task Planning with Language Models

蜜蜜蜂：一种局部增强的多模态大型语言模型投影器

多任务学习中数据不平衡问题的优化策略：预训练与联合微调

电商领域指令微调大模型

大规模语言模型的Transformer架构及其批处理技术

基于语言模型的在线纠错和知识检索系统DROC在机器人任务泛化中的应用

ICCV 2023 通过语言引导实现持续学习

Memory Augmented Language Models through Mixture of Word Experts

大规模语言模型结合神经符号模型的生成型神经符号视觉推理

BitNet: Scaling 1-bit Transformers for Large Language Models

安全训练与语言模型的鲁棒性: 对Llama 2-Chat进行潜在微调的风险评估

VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器

UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations

利用FP8低位数据格式高效地训练大型语言模型

语义压缩：扩展大型语言模型的上下文窗口

Language Models can be Logical Solvers

LLaVA-Grounding：实现大型多模态模型的基于视觉的聊天

语言模型对齐新方法：基于对比不似然训练的判断反馈

【AI Drive】WWW 2021：基于隐私保护的模型联邦个性化

不得不看的Mamba实证研究：英伟达、普林斯顿等联合出品，首创80亿参数Mamba+注意力互补新变体

【AI Drive】ACL 2021：利用对比学习增强预训练语言模型的实体与实体间关系理解