V
主页
京东 11.11 红包
Ultra-Long Sequence Distributed Transformer
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 Ultra-Long Sequence Distributed Transformer 【论文简述】 这篇论文提出了一种新颖高效的分布式训练方法,即长短序列Transformer(LSS Transformer),用于训练长序列的Transformer模型。传统的Transformer在长序列训练中由于计算和内存要求过高而遇到困难。现有的长序列训练方法虽然可以提供有限的加速和内存减少,但可能会损害准确性。LSS Transformer将长序列分成若干段,并在多个GPU之间进行分配,每个GPU计算其所负责段的部分自注意力。然后,它使用了融合通信和新颖的双梯度平均技术,避免了对局部自注意力进行聚合并最小化通信开销。我们在Wikipedia enwik8数据集上评估了LSS Transformer与最先进的Nvidia序列并行方法之间的性能差异。结果表明,相比于144个Nvidia V100 GPU上的最先进序列并行方法,我们提出的方法实现速度提升了5.6倍,并且内存利用率提高了10.2倍。此外,我们的算法在极端序列长度为50,112时,在3,456个GPU上实现了161%的超线性并行效率,并达到了每秒32千万亿次的吞吐量。 【引导阅读的问题】 如何有效地训练长序列的Transformer模型? 【论文链接】 https://arxiv.org/pdf/2311.02382
打开封面
下载高清视频
观看高清视频
视频下载器
Transformer模型原理精讲:Swin、VIT、DETR、BERT四大Transformer核心模型全详解!(深度学习/计算机视觉)
重量子克隆:利用大型预训练模型加速小型Transformer训练
FMViT: A multiple-frequency mixing Vision Transformer
深度对于transformer模型合成泛化的促进作用
Hierarchically Gated Recurrent Neural Network for Sequence Modeling
LLAMA PRO:基于Transformer块扩展的渐进式大型语言模型
Transformers are Multi-State RNNs
大规模语言模型的Transformer架构及其批处理技术
【强推】B站最全的【Transformer教程】中科院56集付费课程,最适合新手入门Transformer模型实战系列,绝对通俗易懂!
DiffiT:基于扩散视觉Transformer的图像生成
Retrieval meets Long Context Large Language Models
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics
UT5: Pretraining Non autoregressive T5 with unrolled denoising
ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network L
Efficient LLM inference solution on Intel GPU
Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with
MusicAgent: An AI Agent for Music Understanding and Generation with Large Langua
A Long Way to Go: Investigating Length Correlations in RLHF
快速高效文本到图像生成模型
LayoutPrompter: Awaken the Design Ability of Large Language Models
视觉RMT网络
Safe RLHF: Safe Reinforcement Learning from Human Feedback
CLEX: Continuous Length Extrapolation for Large Language Models
Question Aware Vision Transformer for Multimodal Reasoning
基于潜在变量推断的训练链式思维提升语言模型推理能力
YOLO卷不动了,来试试DETR:Transformer跨界CV做检测的开山之作—DETR目标检测算法原理详解+源码复现教程!(深度学习/计算机视觉)
电商领域指令微调大模型
Visual In-Context Prompting
Memory Consolidation Enables Long-Context Video Understanding
System 2 Attention (is something you might need too)
基于3D高斯展开的实时少样本视角合成
Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters
生成高质量的长视频:SEINE视频扩散模型
Farzi Data: Autoregressive Data Distillation
【BERT模型精讲】实战教程:基于BERT模型的文本分类、情感分析及中文命名实体识别实战教程,华理博士带你玩转NLP核心框架—BERT模型!-人工智能/深度学习
TiC-CLIP: Continual Training of CLIP Models
FreeControl:实现任意文本到图像扩散模型的无训练空间控制
基于Transformer的推荐系统特征交互建模方法研究
Language Models can be Logical Solvers
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V