[論文レビュー] The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision
NS-CL は、画像と QA ペアから明示的な注釈なしで視覚概念、語彙表現、意味的パーシングを共同学習し、知覚を言語に grounding し、物体ベースのシーン上で潜在プログラムを実行することで、VQA の強力な性能と属性・構成・ドメインを跨ぐ広い一般化を実現します。
We propose the Neuro-Symbolic Concept Learner (NS-CL), a model that learns visual concepts, words, and semantic parsing of sentences without explicit supervision on any of them; instead, our model learns by simply looking at images and reading paired questions and answers. Our model builds an object-based scene representation and translates sentences into executable, symbolic programs. To bridge the learning of two modules, we use a neuro-symbolic reasoning module that executes these programs on the latent scene representation. Analogical to human concept learning, the perception module learns visual concepts based on the language description of the object being referred to. Meanwhile, the learned visual concepts facilitate learning new words and parsing new sentences. We use curriculum learning to guide the searching over the large compositional space of images and language. Extensive experiments demonstrate the accuracy and efficiency of our model on learning visual concepts, word representations, and semantic parsing of sentences. Further, our method allows easy generalization to new object attributes, compositions, language concepts, scenes and questions, and even new program domains. It also empowers applications including visual question answering and bidirectional image-text retrieval.
研究の動機と目的
- 物体やプログラムのラベル付きデータなしで、視覚概念、語彙意味論、文のパーシングの学習を動機づける。
- 物体ベースの視覚表現と、質問を実行可能なプログラムへ翻訳するドメイン固有言語(DSL)を開発する。
- 潜在プログラムから質問に答えるために、微分可能な準シンボリック実行機を介して知覚と言語を橋渡しする。
- 新しい属性、構成、シーン、および言語への一般化を実証する。
- 学習した概念を通じて、視覚質問応答および画像-テキスト検索への適用可能性を示す。
提案手法
- ニューラル知覚モジュール(Mask R-CNN + ResNet-34)を用いて、物体ベースのシーン表現を抽出する。
- 双方向 GRU エンコーダと GRU ベースのデコーダを用いて、自然言語質問を DSL 経由で実行可能なプログラムへ翻訳する。
- 物体表現上で動作する準シンボリックで完全に微分可能なプログラム実行機を用いて、回答を生成する。
- 属性と関係を、物体特徴を概念埋め込みへ写像するニューラル演算子として表現する(例:ShapeOf、ColorOf)をコサイン類似度で分類する。
- カリキュラム学習を用いて、自然監督(画像と QA ペア)で訓練し、概念学習と言語理解の目的を組み合わせる。
- 知覚の微分可能な目的関数で最適化し、意味パーサーには REINFORCE ベースの更新、ばらつきを減らすためのオフポリシー探索を併用する。)
実験結果
リサーチクエスチョン
- RQ1画像と QA ペアから、物体やプログラムの明示的なラベルなしで視覚概念と語彙意味論を共同学習できるだろうか?
- RQ2ニューラル-シンボリック枠組みが自然言語の質問を実行可能なプログラムへ解析し、それを学習済みのシーン表現上でどれくらい効果的に実行できるか?
- RQ3このようなシステムの新しい属性、構成、およびプログラム領域への一般化性能はどの程度か?
- RQ4学習した概念が、画像キャプション検索や他の DSL 主導ドメインなどの関連タスクへどの程度転用できるか?
主な発見
| モデル | プログラム注釈 | 総合 | 件数 | 構成番号 | 存在 | 問合属性 | 構成属性 |
|---|---|---|---|---|---|---|---|
| Human | N/A | 92.6 | 86.7 | 86.4 | 96.6 | 95.0 | 96.0 |
| NMN | 700K | 72.1 | 52.5 | 72.7 | 79.3 | 79.0 | 78.0 |
| N2NMN | 700K | 88.8 | 68.5 | 84.9 | 85.7 | 90.0 | 88.8 |
| IEP | 700K | 96.9 | 92.7 | 98.7 | 97.1 | 98.1 | 98.9 |
| TbD | 700K | 99.1 | 97.6 | 99.4 | 99.2 | 99.5 | 99.6 |
| RN | 0 | 95.5 | 90.1 | 93.6 | 97.8 | 97.1 | 97.9 |
| FiLM | 0 | 97.6 | 94.5 | 93.8 | 99.2 | 99.2 | 99.0 |
| MAC | 0 | 98.9 | 97.2 | 99.4 | 99.5 | 99.3 | 99.5 |
| NS-CL | 0 | 98.9 | 98.2 | 99.0 | 98.8 | 99.3 | 99.1 |
- 概念量子化は CLEVR バリデーションで、色・形などの物体属性を高精度で学習する(約99%)。
- NS-CL は CLEVR でプログラム注釈なしで最先端の QA 性能を達成し、多くのプログラムを必要とする完全教師ありベースラインと良好に比較される。
- CLEVR の訓練データのわずか10% で、NS-CL は競争力のある QA 性能を達成し、データ効率と解釈可能な概念学習を強調する。
- 新しい視覚属性の組み合わせ(CLEVR-CoGenT の splits A/B)にも高い一般化を示し、学習済み属性演算子を保持するとほぼ99%の精度。
- より大きなシーンやより複雑な質問(Split A-D)への強力な組み合わせ一般化を示し、QA 精度がベースラインより少なくとも4%向上。
- 学習した視覚概念を画像キャプション検索や他のドメインへ追加の視覚監督なしで転移させ、高い検索/QA性能を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。