Skip to main content
QUICK REVIEW

[論文レビュー] Faith and Fate: Limits of Transformers on Compositionality

Nouha Dziri, Ximing Lu|arXiv (Cornell University)|May 29, 2023
Topic Modeling被引用数 71
ひとこと要約

本論文はトランスフォーマー型 LLM を三つの組成課題(長い掛け算、エインシュタインのパズル、動的計画法の問題)で分析し、真の多ステップ推論ではなく線形化されたサブグラフ照合に依存していることを示し、課題の複雑さが増すにつれて性能が崩壊する一方、訓練が頑健な組成理解を誘導する証拠はほとんどない、という結論を述べている。

ABSTRACT

Transformer large language models (LLMs) have sparked admiration for their exceptional performance on tasks that demand intricate multi-step reasoning. Yet, these models simultaneously show failures on surprisingly trivial problems. This begs the question: Are these errors incidental, or do they signal more substantial limitations? In an attempt to demystify transformer LLMs, we investigate the limits of these models across three representative compositional tasks -- multi-digit multiplication, logic grid puzzles, and a classic dynamic programming problem. These tasks require breaking problems down into sub-steps and synthesizing these steps into a precise answer. We formulate compositional tasks as computation graphs to systematically quantify the level of complexity, and break down reasoning steps into intermediate sub-procedures. Our empirical findings suggest that transformer LLMs solve compositional tasks by reducing multi-step compositional reasoning into linearized subgraph matching, without necessarily developing systematic problem-solving skills. To round off our empirical study, we provide theoretical arguments on abstract multi-step reasoning problems that highlight how autoregressive generations' performance can rapidly decay with\,increased\,task\,complexity.

研究の動機と目的

  • 自動回帰型トランスフォーマーが本当に多段階の組成的推論を行うかを調査する。
  • 計算グラフとグラフ指標を用いて組成課題の複雑さを定量化する。
  • 学習(ゼロショット、ファウショット、ファインチューニング、スクラッチパッド)によって頑健で一般化可能な組成的問題解決が得られるかを評価する。

提案手法

  • 組成課題を計算グラフとして表現し、問題をサブプロブレムに分解する。
  • グラフから推論の深さと幅を定義して課題の複雑さを測定する。
  • Relative Information Gain を用いてモデルが記憶する可能性のある表面的パターンを予測する。
  • 三つの課題を、言語化されたスクラッチパッド付きで、ゼロショット・ファショット・ファインチューニング済みのトランスフォーマーで評価する。
  • 部分計算の訓練データ露出を分析してパターンマッチングへの依存を評価する。

実験結果

リサーチクエスチョン

  • RQ1トランスフォーマーは組成課題を真の多段階推論で解くのか、それとも線形化されたサブグラフ照合によって解くのか?
  • RQ2計算グラフで捉えられる課題の複雑さがトランスフォーマーの性能にどう影響するか?
  • RQ3タスク固有のファインチューニングやスクラッチパッド推論は、イン-domain 分布を超えた頑健な一般化を可能にするか?
  • RQ4推論の深さが増すにつれてトランスフォーマーはどのような誤りのタイプを示すか?
  • RQ5モデルはトレーニング時に中間的なサブグラフを記憶してしまい、未知の組成へ一般化を妨げるか?

主な発見

  • 問題サイズが大きくなるにつれて、トランスフォーマーのゼロショット・few-shot の精度が著しく低下する。
  • インドメインデータでGPT-3をファインチューニングすると、インドメインでの精度は高いが、より複雑な外部ドメインのグラフには一般化できない。
  • 明示的なスクラッチパッド指導はイン-domain の性能を高めるが、より大規模またはより広いグラフには一般化しない。
  • モデル分析では誤りは主に初期のミスの伝搬に起因することが多く、単一ステップの問題ではなく、浅い記憶化ではなく全体的な計画の欠如を示している。
  • 訓練で見られる完全な計算サブグラフは正しい予測と相関し、真の組成理解よりもパターンマッチングへの依存を示唆している。
  • 理論的提案は、組成の深さが増すにつれて正解予測が指数的に減衰することを示し、複雑な組成に対する自己回帰トランスフォーマーの内在的限界を意味する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。