彻底改变语言模型：全新架构TTT超越Transformer，ML模型代替RNN隐藏状态！——人工智能|机器学习|深度学习

发布人

这篇论文的主要内容是关于一种新型的序列建模方法，称为Test-Time Training（TTT），这是一种在测试时对模型进行训练的技术。这种方法提出了一种新的序列建模层，其核心思想是将隐藏状态视为一个机器学习模型本身，并且更新规则是自监督学习的一个步骤。由于隐藏状态是通过训练来更新的，即使在测试序列上也是如此，因此这种新的层被称为TTT层。

以下是论文的主要内容概述：

1. 问题背景：传统的自注意力（Self-attention）机制在处理长文本时表现出色，但其计算复杂度是二次方的。现有的递归神经网络（RNN）层虽然具有线性复杂度，但在处理长文本时，它们的性能受到隐藏状态表达能力的限制。

2. TTT层的提出：论文提出了TTT层，这是一种具有线性复杂度和高表达能力的序列建模层。TTT层通过将隐藏状态视为一个模型，并且更新规则作为自监督学习的一步，来实现在测试时对模型进行训练。

3. TTT层的实例化：论文考虑了两种TTT层的实例化：TTT-Linear和TTT-MLP，其中隐藏状态分别是线性模型和两层多层感知器（MLP）。

4. 性能评估：作者在参数规模从125M到1.3B的模型上对TTT层进行了评估，并与强大的Transformer和现代RNN Mamba进行了比较。结果表明，TTT-Linear和TTT-MLP都能匹配或超越基线模型。

5. 硬件效率：TTT层在浮点运算次数（FLOPs）上已经非常高效，但作者还提出了两种实际的创新来提高其在实际运行时间（wall-clock time）上的效率：小批量TTT和双重形式（dual form），使TTT-Linear在8k上下文时已经比Transformer更快，并且与Mamba相当。

6. 实验结果：实验结果显示，在短文本处理上，TTT层与Transformer和Mamba表现相当。然而，在长文本处理上，TTT层显示出明显的优势，尤其是在8k上下文长度时，TTT-Linear和TTT-MLP的性能都显著优于Mamba。

7. 未来研究方向：尽管TTT层在某些方面已经展现出潜力，但仍面临一些挑战，特别是在内存I/O方面。作者指出了未来研究的方向，包括更深入的系统优化和探索更大的模型以及更长的上下文。

8. 代码可用性：作者提供了TTT层的代码，支持JAX和PyTorch框架，以便其他研究人员可以复现和利用这些研究成果。

论文的总体贡献在于提出了一种新的序列建模方法，该方法在保持线性复杂度的同时，提供了更高的表达能力，并且在长文本处理上展现出了显著的性能优势。

打开封面下载高清视频观看高清视频视频下载器

彻底改变语言模型：全新架构TTT超越Transformer，ML模型代替RNN隐藏状态！——人工智能|机器学习|深度学习

要基于Pytorch做深度学习，但是我代码水平很低，该如何学习呢？ -人工智能/机器学习/深度学习

可以说知道这五个网站就没有找不到的数据集！特别是最后一个简直就是学术利器！-人工智能/深度学习/机器学习/数据集

Transformer模型原理精讲：Swin、VIT、DETR、BERT四大Transformer核心模型全详解！（深度学习/计算机视觉）

2024最火的两个模型：Informer+LSTM两大时间序列预测模型，论文精读+代码复现，通俗易懂！——人工智能|AI|机器学习|深度学习

如何让深度强化学习准确的理解和应对不确定性？ 卡尔曼滤波居然是解药！

新手狂喜！一小时带你搞懂【LSTM情感分析】，架构解读+案例实战+数据集处理，深度学习NLP核心知识点竟然被他讲得如此透彻！！！

超全超简单！一口气刷完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法！真的比刷剧还爽！

为什么神经网络可以学习任何东西？首次使用动画讲解，带你吃透神经网络！（CNN卷积神经网络、RNN循环神经网络、GAN生成式对抗网络、人工智能、AI）

Qwen大模型本地部署教程！教你本地微调一个法律大模型，无需GPU，只要5G内存！附安装包和微调文档！

高能效语言模型只需要一个“加法”，线性复杂度乘法算法问世！ 能耗降低高达 95%

【从0到1学人工智能】2024年B站最牛的人工智能基础课程，清华大佬带你狂补AI专业知识！—人工智能基础速成 | 机器学习教程 | 深度学习入门

强推！为什么神经网络可以学习任何东西？科学的尽头是AI?计算机博士精讲CNN/RNN/GAN/GNN/Transformer五大神经网络模型，深度学习入门必备！

这可能是我见过B站最好的RNN+Transformer+联邦学习教程！不愧是王树森机器学习天花板课程！NLP、神经网络、并行计算、机器翻译

【从0到1学人工智能】吹爆！2024年B站最好最全的人工智能基础课程，清华大佬带你恶补AI专业知识！—人工智能基础速成 | 机器学习教程 | 深度学习入门

斯坦福公开课！不愧是计算机大佬李飞飞亲授：计算机视觉实战居然如此通俗易懂！建议收藏！（人工智能、深度学习、机器学习、神经网络、AI）

时序预测建模主流走法，多模型融合思路势不可挡！ 轻松实现1+1+1>3效果

2025最好出论文的方向：结合图神经网络GNN构建局部特征！50集理论基础+创新点讲解，学会轻松发SCI！（AI人工智能丨机器学习丨深度学习丨计算机视觉丨CV）

【PyTorch深度学习实战案例】70个练手项目合集，B站最通俗易懂的pytorch深度学习，还不拿下 ！！！PyTorch入门|Pytorch实战

毕业论文终于有救了！这绝对是B站最全的【多模态+大模型+知识图谱】教程，轻松搞定大小论文创新点！！人工智能/深度学习/机器学习

研究生必知的论文复现：如何跑通官方模型并替换为自己的数据集再跑通？——神经网络|机器学习|深度学习

【200集付费】一口气学完回归算法、聚类算法、决策树、随机森林、神经网络、贝叶斯算法、支持向量机、神经网络等十二大机器学习算法！

强推！我敢保证这是B站最全的（python＋机器学习＋深度学习）系列教程，3小时就能从入门到精通，通俗易懂，小白也能学得会！人工智能|深度学习|计算机视觉

与其绞尽脑汁地找方法提升代码能力，还不如把这三个项目啃透——人工智能|机器学习|深度学习

最近看大模型这么火也想学习一下，但该从哪个开源大模型开始学呢？——人工智能|机器学习|深度学习|大模型

这才是科研人该看的！整整122集，一口气把CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络学透,真的比追剧爽太多!

一个案例看懂【AI Agent】项目实战之AI Agent从入门到实践！AI Agent技术原理和应用

太厉害了！终于有人能把OpenCV图像处理+YOLO目标检测讲的这么通俗易懂了！无偿分享学不会你来找我！_计算机视觉/深度学习/OpenCV/YOLO

【比看狂飙还爽！】2024年最全人工智能入门的天花板教程！不接受任何反驳，草履虫都能学会！人工智能|AI|机器学习|深度学习|）

计算机大佬手把手带你做项目！基于LSTM实现文本情感分析！真的通俗易懂！建议收藏！（人工智能/深度学习/机器学习/神经网络/PYTORCH/AI）

【深度学习 搞笑教程】31 长短期记忆网络LSTM | 草履虫都能听懂 零基础入门 | 持续更新

超强动画，一步一步深入浅出解释Transformer原理！这可能是我看到唯一一个用动画讲解Transformer原理的教程！真的通俗易懂！——人工智能、神经网络

122集付费！CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完！

什么是卷积神经网络？了解图像识别背后的原理！最通俗易懂的动画讲解！真的让人醍醐灌顶！（人工智能、深度学习、机器学习、神经网络、Pytorch）

吹爆！这可能是B站最佳入门的【MATLAB】入门教程了！花3小时就能从入门到精通，能听懂人话就行，包教包会！人工智能|神经网络|机器学习

小波变换+注意力机制，数据处理领域的“王炸”组合，创新性拉满！

B站最全智能优化算法课程，模拟退火算法，粒子群算法，遗传算法等16种优化算法_机器学习_深度学习_人工智能

为什么神经网络可以学习任何东西？首次使用动画讲解，带你吃透神经网络！（CNN卷积神经网络、RNN循环神经网络、GAN生成式对抗网络、人工智能、AI）

这才是科研人该学的【大模型训练+微调教程】，100集带你逐层分解学会大语言模型LLM算法原理+项目实战，通俗易懂，比啃书强一万倍！自然语言处理|计算机视觉|

Manipulate-Anything: 实现机器人操作自动化的视觉-语言模型

想学深度学习，可是每个阶段应该看哪些书呢？三本经典畅销深度学习书籍推荐，从小白进阶为大神——人工智能|机器学习|深度学习

如何让深度强化学习准确的理解和应对不确定性？卡尔曼滤波居然是解药！

高能效语言模型只需要一个“加法”，线性复杂度乘法算法问世！能耗降低高达 95%

时序预测建模主流走法，多模型融合思路势不可挡！轻松实现1+1+1>3效果

【PyTorch深度学习实战案例】70个练手项目合集，B站最通俗易懂的pytorch深度学习，还不拿下！！！PyTorch入门|Pytorch实战

【深度学习搞笑教程】31 长短期记忆网络LSTM | 草履虫都能听懂零基础入门 | 持续更新