V
主页
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs 【论文简述】 本论文提出了一种生成型神经符号视觉推理方法,通过增长和重用模块,实现语言转换成模块描述的能力,从而在保持模型的透明性和效率的同时,实现强大的视觉推理结果。该模型由模块初始化、模块生成和模块执行三个独特阶段组成。首先,给定一个视觉语言任务,我们采用大规模语言模型来验证是否可以重用和增长已建立的模块来处理这个新任务。如果不能,我们会初始化一个新的模块,并指定这个新模块的输入和输出。然后,通过查询大规模语言模型来生成与要求相匹配的代码片段来创建新模块。为了更好地了解新模块的能力,我们将少样本训练示例作为测试用例,看看我们的新模块是否能通过这些案例。如果是,新模块将被添加到模块库中以便将来重用。最后,我们通过执行解析程序并使用新建的视觉模块来获得结果来评估我们的模型在测试集上的性能。我们发现,该模型具有几个优点。首先,在视觉问答和引用表达理解等标准任务上具有竞争力;其次,从一个任务中学到的模块可以无缝地转移到新任务;最后,它能够通过观察少量训练示例并重用模块来适应新的视觉推理任务。 【引导阅读的问题】 你如何评价该论文提出的生成型神经符号视觉推理方法? 【论文链接】 https://arxiv.org/pdf/2311.04901
打开封面
下载高清视频
观看高清视频
视频下载器
【代码生成定制】模型生成VxWorks风格的代码
基于认知树的小型语言模型推理能力提升
开源指令生成:用开源代码提升代码生成模型性能
基于统一视觉语言模型的图像和视频混合学习
大规模语言模型在多模态音乐理解与生成中的应用
大规模语言模型的训练与优化研究
人工智能视觉语言模型对视觉错觉的感知
永磁同步电机&磁粉制动器 可代码生成 张力控制
基于语言模型的知识探测和推理方法
融合像素与潜在扩散模型的文本到视频生成方法
高斯涂抹文本生成三维模型
生成高质量的长视频:SEINE视频扩散模型
大型语言模型在代码生成基准测试中表现出良好性能
大规模多模态模型扩展研究
通用视觉基础模型:多任务学习实现高效零样本迁移
小模型大智慧:TinyGSM助力小规模语言模型在数学推理上超越大规模模型
基于文本到图像扩散模型的文本到视频生成架构研究
PATHFINDER:基于树搜索的多步推理路径生成方法
Amortizing intractable inference in large language models
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
快速高效文本到图像生成模型
大规模语言模型在科学中的应用:P vs. NP问题的研究
解释性语言模型特征发现
神经场与触觉感知:实现机器人手部操作的视触觉感知
“我要这样”:结合大型语言模型与约束编程实现交互式决策支持
PromptBench:全面评估大型语言模型的统一框架
多模态大型语言模型深度比较:Gemini与GPT-4V的全面评估与结合
基于个性化教学原理的关闭源LLMs模型蒸馏方法
大型语言模型如何从网络上的信息中辨别真假?
大型语言模型在链式思维推理中的应用
Sorted LLaMA: 动态推理解锁大型语言模型中间层潜力
大规模语言模型的Transformer架构及其批处理技术
大规模语言模型的数学求解能力的安全性评估
大型语言模型生成内容质量自评估提升选择性生成
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
视觉编程推理优化方法研究
基于语言模型的在线纠错和知识检索系统DROC在机器人任务泛化中的应用
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
基于GPT-4的类人机器人自主运动生成
探索大型语言模型在工业芯片设计中的应用