QUICK REVIEW

[論文レビュー] Probing Text Models for Common Ground with Visual Representations

Gabriel Ilharco, Rowan Zellers|arXiv (Cornell University)|May 1, 2020

Multimodal Machine Learning Applications参考文献 23被引用数 12

ひとこと要約

この論文は、BERTのような言語モデルからのテキスト表現を、視覚モデルからの視覚表現にマッピングする軽量なプロービングモデルを提案しており、純粋にテキストで訓練されたモデルですら、非自明な視覚的意味的構造を含んでいることを示している。この手法は、未観測の物体カテゴリにも一般化可能であり、文脈が性能に顕著な影響を与えることが示されたが、人間の性能は依然としてすべてのモデルを上回っている。

ABSTRACT

Vision, as a central component of human perception, plays a fundamental role in shaping natural language. To better understand how text models are connected to our visual perceptions, we propose a method for examining the similarities between neural representations extracted from words in text and objects in images. Our approach uses a lightweight probing model that learns to map language representations of concrete words to the visual domain. We find that representations from models trained on purely textual data, such as BERT, can be nontrivially mapped to those of a vision model. Such mappings generalize to object categories that were never seen by the probe during training, unlike mappings learned from permuted or random representations. Moreover, we find that the context surrounding objects in sentences greatly impacts performance. Finally, we show that humans significantly outperform all examined models, suggesting considerable room for improvement in representation learning and grounding.

研究の動機と目的

純粋に言語で訓練されたモデル（例：BERT）のテキスト表現に、残存する視覚的意味的構造が含まれているかどうかを調査すること。
このようなテキスト表現が、軽量なプロービングモデルを用いて視覚特徴にどの程度うまくマッピングできるかを評価すること。
このようなマッピングが、トレーニング時に見られなかった物体カテゴリへ一般化できるかどうかを評価すること。
言語的文脈が、クロスモodalな整合性の質に与える影響を検討すること。
言語を視覚的概念に根拠づける作業において、モデルの性能を人間の性能と比較すること。

提案手法

テキストモデル（例：BERT）の文脈依存語表現を、事前に訓練された視覚モデルの視覚特徴にマッピングする軽量なプロービングモデルを訓練する。
プローブは、テキスト表現から視覚埋め込み空間への線形変換を学習し、未学習の物体カテゴリへのゼロショット一般化を可能にする。
プロービングは、文に含まれる具体的な語に対して実施され、その物体を含む画像から視覚特徴が抽出される。
モデルは、テキスト表現と対応する視覚特徴との整合性がどの程度高いかを評価し、新しい物体カテゴリへのゼロショット転送を用いる。
意味的なクロスモダリティ整合性を隔離するために、ランダムまたは入れ替えられた表現との性能を比較する。
文脈を系統的に変化させることで、それがプロービング精度に与える影響を評価する。

実験結果

リサーチクエスチョン

RQ1純粋にテキストで訓練されたモデル（例：BERT）は、プロービング可能で視覚的特徴にマッピング可能な視覚的意味的情報をエンコードしているか？
RQ2テキストから視覚へのマッピングは、プローブ学習時に見られなかった物体カテゴリにも一般化できるか？
RQ3ターゲット語を取り巻く言語的文脈が、テキストから視覚へのマッピングの質にどのような影響を与えるか？
RQ4学習されたマッピングは、ランダムまたは入れ替えられた表現をどれだけ上回るか？
RQ5言語を視覚的対象に根拠づける作業において、人間の性能はモデルの性能をどの程度上回るか？

主な発見

BERTのテキスト表現は、視覚的特徴に意味的にマッピング可能であり、純粋にテキストで訓練されたモデルに視覚的意味的構造が暗黙的にエンコードされていることを示している。
プロービングモデルは、未観測の物体カテゴリへ一般化可能であり、学習済みマッピングの強靭さと転送可能性を示している。
実際のテキスト表現から学習されたマッピングは、ランダムまたは入れ替えられた表現から得られたものよりも顕著に優れているため、非自明な整合性が確認された。
ターゲット語を取り巻く文脈が、プロービング性能に測定可能で顕著な影響を与えることが示され、表現の文脈感受性が裏付けられた。
人間は、言語を視覚的対象に根拠づける作業において、すべての検討されたモデルを顕著に上回っており、現在の表現学習におけるギャップが浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。