V
主页
京东 11.11 红包
【NeurIPS 2022】Transformers泛化方式的探索!
发布人
论文链接:https://arxiv.org/abs/2210.05675v2 Transformer模型可以使用两种基本不同的信息:训练期间存储在权重中的信息,以及推理时“在上下文中”提供的信息。在这项工作中,我们发现Transformer在如何表示和概括这两个来源的信息方面表现出不同的感应偏差。特别地,我们描述了它们是通过简约规则(基于规则的泛化)还是通过与观察到的示例的直接比较(基于示例的泛化)来泛化。这具有重要的实际意义,因为它决定了是在权重中还是在上下文中编码信息,这取决于我们希望模型如何使用这些信息。在基于受控刺激训练的变换器中,我们发现来自权重的泛化更基于规则,而来自上下文的泛化主要基于范例。相比之下,我们发现在基于自然语言预先训练的变形金刚中,上下文学习是基于规则的,更大的模型显示出更多的规则基础。我们假设,来自上下文信息的基于规则的泛化可能是大规模语言训练的一个紧急结果,这种语言具有稀疏的类规则结构。使用受控刺激,我们验证了在包含稀疏类规则结构的数据上预处理的变换器表现出更基于规则的泛化。
打开封面
下载高清视频
观看高清视频
视频下载器
2022最新!伯克利大学现代计算机视觉与深度学习系列课程(10):生成式对抗网络
地平线VAD又又又上新了!VADv2比v1强在哪里?一起来听
MonoPLFlowNet:用于单目图像的现实尺度 3D 场景流估计(ECCV2022)
【CoRL2022】路径规划新SOTA!PlanT:通过目标级表示的可解释的规划Transformers
2022最新!伯克利大学现代计算机视觉与深度学习系列课程(21):音频生成
【IROS2022】联合学习结合语义分割!啪!泛化性这不就来了么~
【2024】卷算法还是走开发?走哪个好进大厂?-人工智能、机器学习、深度学习、程序员、编程
【IROS 2022】机器人超硬核点云配准方法:Linewise Non-Rigid Point Cloud Registration
2022最新!伯克利大学现代计算机视觉与深度学习系列课程(6):先进的CV架构
2022最新!伯克利大学现代计算机视觉与深度学习系列课程(12):扩散Diffusion
【ECCV 2022】SyncNet:Latency-Aware协作感知!(上交&上海AI Lab)
端到端算法有哪些优势?完爆传统感知规控?
【神经网络杀疯了!】登上nature!人工智能迎来新突破!被证明具有泛化能力,能像人类一样思考
端到端算法是什么?自动驾驶领域是怎么做的?
【WACV 2022】基于Radar-Camera融合的2D目标检测融合点云剪枝
浙江大学最新 | BEVPlace++:激光雷达全局定位方法,超越当前SOTA!泛化性能极佳
端到端基础!绕不开的感知模块
绝对前沿!全面剖析自动驾驶具身理解任务!
基于计算机视觉和进化摄像机标定的车速估计!
EM Planner is all u need?
【ECCV 2022】 获取的真值更准确!LaMAR:AR中的定位和建图新基准
VastGaussian:首个基于3D Gaussian Splatting的大场景高质量重建和实时渲染方法
2022最新 | HybridNets:端到端感知网络(检测+可行使区域分割+车道线三大任务)
性能提升近40%!ViPlanner:室内外局部导航全搞定(ICRA 2024)
2022最新!伯克利大学现代计算机视觉与深度学习系列课程(17):3D视觉(1)
【ICCV 2023】 Robust Depth:多种天气条件下的自监督单目深度估计新SOTA
B站最全!概率论基础、线性代数基础、高等数学基础、微积分、泰勒公式、贝叶斯算法、回归分析等十大人工智能数学基础一口气学完!
轨迹预测到底预测个啥???轨迹预测入门必备!
YOLOX论文讲解和如何训练定制无人机检测器!
CoRL 2022 | 世界首款纯视觉协同感知方案是个啥?CoBEVT告诉你答案!
Tesla超酷机器人闪耀亮相 | Tesla AI Day 2022
CUDA编程实战教程之:流和事件!彻底搞懂~
为什么自动驾驶离不开模型部署?
IROS 2024 | NAVINACT:结合导航和模仿学习进行增强强化学习
关于自动驾驶的一切(层级划分/Lidar/Radar/视觉感知/AI与发展等)
终生SLAM框架!BioSLAM:用于一般地点识别的仿生终身记忆系统
BFS是个啥?为什么规划控制需要它?
一文尽览:自动驾驶大语言模型应用综述分享
【ECCV2022】自监督新SOTA!加速4倍!点云上自监督学习的Masked Discrimination
自动驾驶的规划控制究竟在做什么?我们为什么需要规划控制