Ultra-Long Sequence Distributed Transformer

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流
【论文标题】 Ultra-Long Sequence Distributed Transformer
【论文简述】 这篇论文提出了一种新颖高效的分布式训练方法，即长短序列Transformer(LSS Transformer)，用于训练长序列的Transformer模型。传统的Transformer在长序列训练中由于计算和内存要求过高而遇到困难。现有的长序列训练方法虽然可以提供有限的加速和内存减少，但可能会损害准确性。LSS Transformer将长序列分成若干段，并在多个GPU之间进行分配，每个GPU计算其所负责段的部分自注意力。然后，它使用了融合通信和新颖的双梯度平均技术，避免了对局部自注意力进行聚合并最小化通信开销。我们在Wikipedia enwik8数据集上评估了LSS Transformer与最先进的Nvidia序列并行方法之间的性能差异。结果表明，相比于144个Nvidia V100 GPU上的最先进序列并行方法，我们提出的方法实现速度提升了5.6倍，并且内存利用率提高了10.2倍。此外，我们的算法在极端序列长度为50,112时，在3,456个GPU上实现了161％的超线性并行效率，并达到了每秒32千万亿次的吞吐量。
【引导阅读的问题】 如何有效地训练长序列的Transformer模型？
【论文链接】 https://arxiv.org/pdf/2311.02382

打开封面下载高清视频观看高清视频视频下载器

Ultra-Long Sequence Distributed Transformer

Transformer模型原理精讲：Swin、VIT、DETR、BERT四大Transformer核心模型全详解！（深度学习/计算机视觉）

重量子克隆：利用大型预训练模型加速小型Transformer训练

FMViT: A multiple-frequency mixing Vision Transformer

深度对于transformer模型合成泛化的促进作用

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

LLAMA PRO：基于Transformer块扩展的渐进式大型语言模型

Transformers are Multi-State RNNs

大规模语言模型的Transformer架构及其批处理技术

【强推】B站最全的【Transformer教程】中科院56集付费课程，最适合新手入门Transformer模型实战系列，绝对通俗易懂！

DiffiT：基于扩散视觉Transformer的图像生成

Retrieval meets Long Context Large Language Models

RoboVQA: Multimodal Long-Horizon Reasoning for Robotics

UT5: Pretraining Non autoregressive T5 with unrolled denoising

ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network L

Efficient LLM inference solution on Intel GPU

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with

MusicAgent: An AI Agent for Music Understanding and Generation with Large Langua

A Long Way to Go: Investigating Length Correlations in RLHF

快速高效文本到图像生成模型

LayoutPrompter: Awaken the Design Ability of Large Language Models

视觉RMT网络

Safe RLHF: Safe Reinforcement Learning from Human Feedback

CLEX: Continuous Length Extrapolation for Large Language Models

Question Aware Vision Transformer for Multimodal Reasoning

基于潜在变量推断的训练链式思维提升语言模型推理能力

YOLO卷不动了，来试试DETR：Transformer跨界CV做检测的开山之作—DETR目标检测算法原理详解+源码复现教程！（深度学习/计算机视觉）

电商领域指令微调大模型

Visual In-Context Prompting

Memory Consolidation Enables Long-Context Video Understanding

System 2 Attention (is something you might need too)

基于3D高斯展开的实时少样本视角合成

Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters

生成高质量的长视频：SEINE视频扩散模型

Farzi Data: Autoregressive Data Distillation

【BERT模型精讲】实战教程：基于BERT模型的文本分类、情感分析及中文命名实体识别实战教程，华理博士带你玩转NLP核心框架—BERT模型！-人工智能/深度学习

TiC-CLIP: Continual Training of CLIP Models

FreeControl：实现任意文本到图像扩散模型的无训练空间控制

基于Transformer的推荐系统特征交互建模方法研究

Language Models can be Logical Solvers

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V