QUICK REVIEW

[論文レビュー] IntPhys: A Framework and Benchmark for Visual Intuitive Physics Reasoning

Ronan Riochet, Mario Ynocente Castro|arXiv (Cornell University)|Mar 20, 2018

Human Pose and Action Recognition参考文献 42被引用数 34

ひとこと要約

IntPhys 2019 は、AI システムの視覚的直感的物理学的推論能力を評価するベンチマークを導入し、物理的に可能か不可能かの動画イベントを識別できる能力を検証するため、妥当性スコアリングタスクを用いる。このフレームワークはゲームエンジンを用いて生成された合成動画クリップを使用し、物理的に可能である動画のみで訓練された2つのディープラーニングモデルが、特に遮蔽下においても、偶然以上の性能を示すことで、ピクセルレベルの予測よりも抽象的なマスクベースの表現の価値を示している。

ABSTRACT

In order to reach human performance on complexvisual tasks, artificial systems need to incorporate a sig-nificant amount of understanding of the world in termsof macroscopic objects, movements, forces, etc. Inspiredby work on intuitive physics in infants, we propose anevaluation benchmark which diagnoses how much a givensystem understands about physics by testing whether itcan tell apart well matched videos of possible versusimpossible events constructed with a game engine. Thetest requires systems to compute a physical plausibilityscore over an entire video. It is free of bias and cantest a range of basic physical reasoning concepts. Wethen describe two Deep Neural Networks systems aimedat learning intuitive physics in an unsupervised way,using only physically possible videos. The systems aretrained with a future semantic mask prediction objectiveand tested on the possible versus impossible discrimi-nation task. The analysis of their results compared tohuman data gives novel insights in the potentials andlimitations of next frame prediction architectures.

研究の動機と目的

直感的物理学理解の評価を目的とした、タスクおよびモデルに依存しないベンチマークの開発。
教師なし学習を通じて、物体恒続性、連続性、運動量保存の法則などの物理的原則がどの程度学習されるかを診断すること。
物理的に妥当な動画で訓練されたディープラーニングモデルの性能を、標準化された妥当性判別タスクにおいて人間のベースラインと比較すること。
抽象的でオブジェクト中心の表現（例：意味的マスク）が、ピクセルレベルの予測と比較して物理的不可能性への一般化をどのように向上させるかを調査すること。
発達心理学のパラダイム（例：期待の違反）を機械学習の評価フレームワークに適応可能かどうかを検討すること。

提案手法

ベンチマークは、2つの可能で2つの不可能なイベントからなる一致した動画クアッドレットを構築する。これらの動画は、1つの物理的違反（例：物体の消失、非連続的運動）を除いて同一である。
各動画は、システムによって妥当性スコアが付与され、低いスコアは物理的不可能性の高い可能性を示す。
2つのディープニューラルネットワークモデルが、物理的に可能である動画のみで、将来の意味的マスク予測の目的関数を用いて教師なし学習で訓練される。
モデルの性能は、可能と不可能なクリップを識別する能力を分類精度およびAUCで測定する。
評価は、乳児認知における期待の違反（VOE）パラダイムにインspiredされており、予期しない出来事は注意の増加を引き起こす。
視覚的複雑さ、オブジェクト数、遮蔽を制御することで、モデルの耐性の系統的分析が可能になる。

実験結果

リサーチクエスチョン

RQ1物理的に可能である動画のみで訓練されたAIシステムは、新しいテスト動画における微細な物理的不可能性を検出できるか？
RQ2意味的マスク予測で訓練されたモデルの性能は、ピクセルレベル再構成で訓練されたモデルと比較して、直感的物理学的推論においてどのように異なるか？
RQ3遮蔽やオブジェクト数の増加が、モデルと人間の物理的違反検出能力にどの程度影響を与えるか？
RQ4抽象的でオブジェクト中心の表現を用いることで、生のピクセルベースの予測と比較して、未観測の物理的シナリオへの一般化が向上するか？
RQ5期待の違反パラダイムに基づくベンチマークは、人工システムにおける直感的物理学的理解を効果的に測定できるか？

主な発見

人間参加者は IntPhys 2019 ベンチマークで低誤差率を示したが、遮蔽下では性能が低下したが、オブジェクト数の増加による低下は見られず、オブジェクト追跡の認知的限界と整合的であった。
意味的マスク予測モデルは、ピクセルベースのモデルよりも物理的不可能性の検出で優れた性能を示し、抽象的表現が直感的物理学的推論においてより効果的であることを示している。
マスクベースのモデルは、妥当性判別タスクで偶然以上の性能を示し、物理的に可能である動画でのみの訓練からも一般化が成功したことを示している。
遮蔽はモデルの性能を顕著に低下させ、部分的観測が物理的推論システムにとって依然として主要な課題であることを示している。
結果から、将来のマスク予測による教師なし学習は、物体連続性や運動量保存の法則といった核心的な物理的原則を捉えたモデルを生成できることを示している。
ベンチマークは、現在のディープラーニングモデルが、複雑なまたは遮蔽されたシーンを扱う際には人間レベルの直感的物理学的理解にまだ到達していないことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。