V
主页
Hierarchically Gated Recurrent Neural Network for Sequence Modeling
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 Hierarchically Gated Recurrent Neural Network for Sequence Modeling 【论文简述】 最近,由于在并行训练和长期依赖建模方面的卓越能力,变形金刚网络(Transformers)已经超过循环神经网络(RNNs)在受欢迎程度上。最近,人们对使用线性RNN进行高效序列建模产生了重新兴趣。这些线性RNN通常在线性循环层的输出中使用门控机制,而忽视了在循环中使用遗忘门的重要性。在本文中,我们提出了一种名为分层门控循环神经网络(HGRN)的门限线性RNN模型,其中包括遗忘门,其下界由可学习值限制。当向上移动层时,下界单调递增。这使得上层能够建模长期依赖性,而下层能够建模更本地的短期依赖性。在语言建模、图像分类和长距离竞技场基准测试中的实验展示了我们提出的模型的效率和有效性。源代码可在https://github.com/OpenNLPLab/HGRN找到。 【引导阅读的问题】 门限线性循环神经网络模型HGRN如何提高了序列建模的效率和效果? 【论文链接】 https://arxiv.org/pdf/2311.04823
打开封面
下载高清视频
观看高清视频
视频下载器
Neural Network Diffusion
Toward Joint Language Modeling for Speech Units and Text
【深度学习 搞笑教程】30 门控神经单元GRU | 草履虫都能听懂 零基础入门 | 持续更新
Kosmos-G: Generating Images in Context with Multimodal Large Language Models
LightSpeed: Light and Fast Neural Light Fields on Mobile Devices
深度学习初学者入门最强视频!100集从入门到实战,带你完全吃透PyTorch!
ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network L
CLIP作为RNN:无需训练即可分割无数视觉概念
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
Conditional Diffusion Distillation
【Pytorch入门实战-附源码】龙良曲教授亲授!全150讲,Pytorch必看经典课程!通俗易懂!
时间序列在数据embedding上有哪些创新? 盘点ICLR24最佳思路和工作
EvoPrompt: AI Prompt Optimizer
Contrastive Chain-of-Thought Prompting
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language M
Safe RLHF: Safe Reinforcement Learning from Human Feedback
基于上下文调整的检索增强生成方法
图神经网络何时预训练?从数据生成角度探讨
大型语言模型生成内容质量自评估提升选择性生成
微量多语言数据提升多语言指令跟随能力
OpenIns3D: 3D开放词汇实例分割的新框架
LayoutPrompter: Awaken the Design Ability of Large Language Models
VeRA: Vector-based Random Matrix Adaptation
Transformers are Multi-State RNNs
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
Offline Actor-Critic Reinforcement Learning Scales to Large Models
Mamba: 线性时间序列建模中的选择性状态空间
Efficient Tool Use with Chain-of-Abstraction Reasoning
Can a student Large Language Model perform as well as it's teacher?
UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations
TinySAM:高效分割模型的新突破
Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition
无需相机参数的3D高斯散射:COLMAP-Free 3DGS实现稳健的视角合成与姿态估计
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
Contrastive Prefence Learning: Learning from Human Feedback without RL
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents
4K4D: Real-Time 4D View Synthesis at 4K Resolution
Retrieval meets Long Context Large Language Models
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Con
基于PyTorch!让你1天丝滑掌握YOLOV5原理+代码+部署!非常非常细致,每部分都会讲到!-神经网络/深度学习/目标检测