[论文解读] The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision
NS-CL 通过将图像与问题和答案配对,在一个神经符号框架内联合学习视觉概念、词意义和语义解析,从而实现可解释、可组合的视觉推理,而无需程序注解。它在 CLEVR 上取得了强结果,并能泛化到新的属性、组合和领域。
We propose the Neuro-Symbolic Concept Learner (NS-CL), a model that learns visual concepts, words, and semantic parsing of sentences without explicit supervision on any of them; instead, our model learns by simply looking at images and reading paired questions and answers. Our model builds an object-based scene representation and translates sentences into executable, symbolic programs. To bridge the learning of two modules, we use a neuro-symbolic reasoning module that executes these programs on the latent scene representation. Analogical to human concept learning, the perception module learns visual concepts based on the language description of the object being referred to. Meanwhile, the learned visual concepts facilitate learning new words and parsing new sentences. We use curriculum learning to guide the searching over the large compositional space of images and language. Extensive experiments demonstrate the accuracy and efficiency of our model on learning visual concepts, word representations, and semantic parsing of sentences. Further, our method allows easy generalization to new object attributes, compositions, language concepts, scenes and questions, and even new program domains. It also empowers applications including visual question answering and bidirectional image-text retrieval.
研究动机与目标
- 在没有对任何组件给予显式注释的前提下,利用带有问答对的图像学习视觉概念、词表示和语义解析。
- 构建基于对象的场景表征,并将问题翻译为可执行程序。
- 使用神经符号推理模块在潜在场景表征上执行程序以给出准确答案。
- 实现对未见属性、场景组合和新程序域的组成性泛化。
- 在实现可解释的视觉概念的同时,证明其在 VQA 和图像-文本检索中的适用性。
提出的方法
- 感知模块使用 Mask R-CNN 和 ResNet-34 来创建基于对象的场景表征。
- 视觉概念被实现为将对象嵌入映射到以余弦相似度进行分类的属性特定空间的神经算子。
- 语义解析将自然语言问题转化为可执行程序的分层领域特定语言(DSL)。
- 准符号化程序执行器对场景表示确定性地应用程序模块;中间结果是对对象的概率性遮罩,以保持可微分性。
- 训练通过对答案的最大似然联合优化感知和语义解析;带离策略搜索的 REINFORCE 优化解析器;课程学习引导从简单问题到复杂问题的进展。
- 课程阶段: (1) 对象级概念,(2) 关系概念,(3) 固定感知的复杂问题,(4) 联合微调。
实验结果
研究问题
- RQ1是否可以仅通过图像与问答对来联合学习视觉概念、语言语义和语义解析,而不对任何组件提供显式监督?
- RQ2神经符号框架是否能够在 VQA 任务中实现可解释的推理和鲁棒的组合泛化?
- RQ3在没有程序注释的情况下,模型对新属性、组合和领域的泛化能力如何?
- RQ4学习到的概念是否能迁移到相关任务,如图像-标题检索或其他基于 DSL 的领域?
- RQ5课程学习对收敛性和在对象级、关系和复杂问题上的性能有何影响?
主要发现
- NS-CL 在对象属性的概念量化接近完美,并在有限数据下对视觉推理取得强大准确性(在 5K 张图像、每张图 20 个问题的条件下训练)。
- 该模型在 CLEVR 上在无程序注释的情况下达到最先进的问答性能,并且相对于在程序轨迹上获得全面监督的模型,结果具有竞争力。
- NS-CL 展示出鲁棒的组合泛化能力,适应更大场景和比训练分布更深的问答程序。
- 学习到的视觉概念可在新任务(如图像-文本检索)中无需额外微调就转移,以及在新 DSL 中仅需最小的语义解析适配。
- NS-CL 显示出强数据效率;仅用 CLEVR 数据的 10% 就在某些评估上达到与使用全部数据的基线相同的水平。
- 消融实验表明基于对象的表征与符号执行提供可解释的执行轨迹,并在感知与推理之间实现有效解耦。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。