Skip to main content
QUICK REVIEW

[論文レビュー] Measuring Systematic Generalization in Neural Proof Generation with Transformers

Nicolas Gontier, Koustuv Sinha|PolyPublie (École Polytechnique de Montréal)|Sep 30, 2020
Topic Modeling参考文献 26被引用数 28
ひとこと要約

この論文は、第一階論理の問題に対する自然言語証明を生成するように訓練された変換器言語モデル(TLMs)の論理的推論タスクにおける一般化性能を調査する。訓練済みの証明長さでは優れた性能を示すが、長さ一般化には困難を示す。しかし、特に後退的推論戦略を用いた長く包括的な証明で訓練すると顕著に改善する。一方、直接答えを生成するように訓練されたモデルは、証明を生成するように訓練されたモデルよりも優れた性能を示す。

ABSTRACT

We are interested in understanding how well Transformer language models (TLMs) can perform reasoning tasks when trained on knowledge encoded in the form of natural language. We investigate their systematic generalization abilities on a logical reasoning task in natural language, which involves reasoning over relationships between entities grounded in first-order logical proofs. Specifically, we perform soft theorem-proving by leveraging TLMs to generate natural language proofs. We test the generated proofs for logical consistency, along with the accuracy of the final inference. We observe length-generalization issues when evaluated on longer-than-trained sequences. However, we observe TLMs improve their generalization performance after being exposed to longer, exhaustive proofs. In addition, we discover that TLMs are able to generalize better using backward-chaining proofs compared to their forward-chaining counterparts, while they find it easier to generate forward chaining proofs. We observe that models that are not trained to generate proofs are better at generalizing to problems based on longer proofs. This suggests that Transformers have efficient internal reasoning strategies that are harder to interpret. These results highlight the systematic generalization behavior of TLMs in the context of logical reasoning, and we believe this work motivates deeper inspection of their underlying reasoning strategies.

研究の動機と目的

  • TLMsの自然言語による論理的推論タスクにおける体系的一般化能力を評価すること。
  • 異なる証明構造(前向き推論対後退的推論)で訓練した場合の一般化への影響を調査すること。
  • 証明長さと訓練目的(証明生成対直接的答え生成)が一般化性能に与える影響を評価すること。
  • TLMsが再利用可能な推論戦略を学習しているのか、それとも訓練データ内の表面的なパターンに依存しているのかを特定すること。
  • 複雑な推論タスクに対して、解釈可能で論理的に整合性のある証明をTLMsが信頼性を持って生成できるかを検討すること。

提案手法

  • CLUTRRベンチマークを用いてTLMsを微調整し、自然言語文と第一階論理証明を提供する。
  • 言語モデルの目的関数を用いて、完全な自然言語証明の生成をモデルに訓練する。
  • 生成された証明の論理的整合性と最終的推論の正確性を評価する。
  • 前向き推論、後退的推論、および証明なし(直接的答え生成)の異なる証明戦略間での一般化を比較する。
  • 訓練分布を超える外挿をテストするため、証明長を変化させた制御実験を実施する。
  • 注目機構のパターンと証明内の位置依存性を分析し、モデルの行動を理解する。

実験結果

リサーチクエスチョン

  • RQ1TLMsは、訓練時に見ていた証明長より長い証明系列に対して体系的に一般化できるか?
  • RQ2短い証明よりも、長く包括的な証明で訓練した場合、一般化性能が向上するか?
  • RQ3後退的推論証明は、前向き推論証明よりも一般化に効果的か?
  • RQ4証明を生成するように訓練した場合と、直接答えを予測するように訓練した場合とでは、一般化性能に差があるか?
  • RQ5証明系列における答えの位置が、モデルの一般化と推論の信頼性にどのように影響するか?

主な発見

  • TLMsは顕著な長さ一般化の失敗を示しており、訓練時に見た証明長より長い証明系列への一般化に困難を示す。
  • より長い包括的な証明で微調整されたモデルは、短い証明で訓練されたモデルよりも顕著に一般化性能が優れている。
  • 後退的推論証明は、前向き推論証明よりも一般化性能が優れているが、生成が難しいにもかかわらず。
  • 証明を生成するように訓練したモデルよりも、直接答えを生成するように訓練したモデルの方が一般化性能が優れている。これは、推論と説明の間の分離が示唆される。
  • 証明系列における答えの位置が性能に強く影響しており、後退的推論では答えが最初に配置されるが、モデルはこれに対してより信頼性を持って対処できる。
  • 生成された証明の論理的整合性はしばしば損なわれており、モデルが妥当でないが説得力のある推論の連鎖を生成している可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。