V
主页
京东 11.11 红包
彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态!——人工智能|机器学习|深度学习
发布人
这篇论文的主要内容是关于一种新型的序列建模方法,称为Test-Time Training(TTT),这是一种在测试时对模型进行训练的技术。这种方法提出了一种新的序列建模层,其核心思想是将隐藏状态视为一个机器学习模型本身,并且更新规则是自监督学习的一个步骤。由于隐藏状态是通过训练来更新的,即使在测试序列上也是如此,因此这种新的层被称为TTT层。 以下是论文的主要内容概述: 1. 问题背景:传统的自注意力(Self-attention)机制在处理长文本时表现出色,但其计算复杂度是二次方的。现有的递归神经网络(RNN)层虽然具有线性复杂度,但在处理长文本时,它们的性能受到隐藏状态表达能力的限制。 2. TTT层的提出:论文提出了TTT层,这是一种具有线性复杂度和高表达能力的序列建模层。TTT层通过将隐藏状态视为一个模型,并且更新规则作为自监督学习的一步,来实现在测试时对模型进行训练。 3. TTT层的实例化:论文考虑了两种TTT层的实例化:TTT-Linear和TTT-MLP,其中隐藏状态分别是线性模型和两层多层感知器(MLP)。 4. 性能评估:作者在参数规模从125M到1.3B的模型上对TTT层进行了评估,并与强大的Transformer和现代RNN Mamba进行了比较。结果表明,TTT-Linear和TTT-MLP都能匹配或超越基线模型。 5. 硬件效率:TTT层在浮点运算次数(FLOPs)上已经非常高效,但作者还提出了两种实际的创新来提高其在实际运行时间(wall-clock time)上的效率:小批量TTT和双重形式(dual form),使TTT-Linear在8k上下文时已经比Transformer更快,并且与Mamba相当。 6. 实验结果:实验结果显示,在短文本处理上,TTT层与Transformer和Mamba表现相当。然而,在长文本处理上,TTT层显示出明显的优势,尤其是在8k上下文长度时,TTT-Linear和TTT-MLP的性能都显著优于Mamba。 7. 未来研究方向:尽管TTT层在某些方面已经展现出潜力,但仍面临一些挑战,特别是在内存I/O方面。作者指出了未来研究的方向,包括更深入的系统优化和探索更大的模型以及更长的上下文。 8. 代码可用性:作者提供了TTT层的代码,支持JAX和PyTorch框架,以便其他研究人员可以复现和利用这些研究成果。 论文的总体贡献在于提出了一种新的序列建模方法,该方法在保持线性复杂度的同时,提供了更高的表达能力,并且在长文本处理上展现出了显著的性能优势。
打开封面
下载高清视频
观看高清视频
视频下载器
要基于Pytorch做深度学习,但是我代码水平很低,该如何学习呢? -人工智能/机器学习/深度学习
可以说知道这五个网站就没有找不到的数据集!特别是最后一个简直就是学术利器!-人工智能/深度学习/机器学习/数据集
Transformer模型原理精讲:Swin、VIT、DETR、BERT四大Transformer核心模型全详解!(深度学习/计算机视觉)
2024最火的两个模型:Informer+LSTM两大时间序列预测模型,论文精读+代码复现,通俗易懂!——人工智能|AI|机器学习|深度学习
如何让深度强化学习准确的理解和应对不确定性? 卡尔曼滤波居然是解药!
新手狂喜!一小时带你搞懂【LSTM情感分析】,架构解读+案例实战+数据集处理,深度学习NLP核心知识点竟然被他讲得如此透彻!!!
超全超简单!一口气刷完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法!真的比刷剧还爽!
为什么神经网络可以学习任何东西?首次使用动画讲解,带你吃透神经网络!(CNN卷积神经网络、RNN循环神经网络、GAN生成式对抗网络、人工智能、AI)
Qwen大模型本地部署教程!教你本地微调一个法律大模型,无需GPU,只要5G内存!附安装包和微调文档!
高能效语言模型只需要一个“加法”,线性复杂度乘法算法问世! 能耗降低高达 95%
【从0到1学人工智能】2024年B站最牛的人工智能基础课程,清华大佬带你狂补AI专业知识!—人工智能基础速成 | 机器学习教程 | 深度学习入门
强推!为什么神经网络可以学习任何东西?科学的尽头是AI?计算机博士精讲CNN/RNN/GAN/GNN/Transformer五大神经网络模型,深度学习入门必备!
这可能是我见过B站最好的RNN+Transformer+联邦学习教程!不愧是王树森机器学习天花板课程!NLP、神经网络、并行计算、机器翻译
【从0到1学人工智能】吹爆!2024年B站最好最全的人工智能基础课程,清华大佬带你恶补AI专业知识!—人工智能基础速成 | 机器学习教程 | 深度学习入门
斯坦福公开课!不愧是计算机大佬李飞飞亲授:计算机视觉实战居然如此通俗易懂!建议收藏!(人工智能、深度学习、机器学习、神经网络、AI)
时序预测建模主流走法,多模型融合思路势不可挡! 轻松实现1+1+1>3效果
2025最好出论文的方向:结合图神经网络GNN构建局部特征!50集理论基础+创新点讲解,学会轻松发SCI!(AI人工智能丨机器学习丨深度学习丨计算机视觉丨CV)
【PyTorch深度学习实战案例】70个练手项目合集,B站最通俗易懂的pytorch深度学习,还不拿下 !!!PyTorch入门|Pytorch实战
毕业论文终于有救了!这绝对是B站最全的【多模态+大模型+知识图谱】教程,轻松搞定大小论文创新点!!人工智能/深度学习/机器学习
研究生必知的论文复现:如何跑通官方模型并替换为自己的数据集再跑通?——神经网络|机器学习|深度学习
【200集付费】一口气学完回归算法、聚类算法、决策树、随机森林、神经网络、贝叶斯算法、支持向量机、神经网络等十二大机器学习算法!
强推!我敢保证这是B站最全的(python+机器学习+深度学习)系列教程,3小时就能从入门到精通,通俗易懂,小白也能学得会!人工智能|深度学习|计算机视觉
与其绞尽脑汁地找方法提升代码能力,还不如把这三个项目啃透——人工智能|机器学习|深度学习
最近看大模型这么火也想学习一下,但该从哪个开源大模型开始学呢?——人工智能|机器学习|深度学习|大模型
这才是科研人该看的!整整122集,一口气把CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络学透,真的比追剧爽太多!
一个案例看懂【AI Agent】项目实战之AI Agent从入门到实践!AI Agent技术原理和应用
太厉害了!终于有人能把OpenCV图像处理+YOLO目标检测讲的这么通俗易懂了!无偿分享学不会你来找我!_计算机视觉/深度学习/OpenCV/YOLO
【比看狂飙还爽!】2024年最全人工智能入门的天花板教程!不接受任何反驳,草履虫都能学会!人工智能|AI|机器学习|深度学习|)
计算机大佬手把手带你做项目!基于LSTM实现文本情感分析!真的通俗易懂!建议收藏!(人工智能/深度学习/机器学习/神经网络/PYTORCH/AI)
【深度学习 搞笑教程】31 长短期记忆网络LSTM | 草履虫都能听懂 零基础入门 | 持续更新
超强动画,一步一步深入浅出解释Transformer原理!这可能是我看到唯一一个用动画讲解Transformer原理的教程!真的通俗易懂!——人工智能、神经网络
122集付费!CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完!
什么是卷积神经网络?了解图像识别背后的原理!最通俗易懂的动画讲解!真的让人醍醐灌顶!(人工智能、深度学习、机器学习、神经网络、Pytorch)
吹爆!这可能是B站最佳入门的【MATLAB】入门教程了!花3小时就能从入门到精通,能听懂人话就行,包教包会!人工智能|神经网络|机器学习
小波变换+注意力机制,数据处理领域的“王炸”组合,创新性拉满!
B站最全智能优化算法课程,模拟退火算法,粒子群算法,遗传算法等16种优化算法_机器学习_深度学习_人工智能
为什么神经网络可以学习任何东西?首次使用动画讲解,带你吃透神经网络!(CNN卷积神经网络、RNN循环神经网络、GAN生成式对抗网络、人工智能、AI)
这才是科研人该学的【大模型训练+微调教程】,100集带你逐层分解学会大语言模型LLM算法原理+项目实战,通俗易懂,比啃书强一万倍!自然语言处理|计算机视觉|
Manipulate-Anything: 实现机器人操作自动化的视觉-语言模型
想学深度学习,可是每个阶段应该看哪些书呢?三本经典畅销深度学习书籍推荐,从小白进阶为大神——人工智能|机器学习|深度学习