[論文レビュー] Can Language Models Solve Graph Problems in Natural Language?
本論文は大規模な自然言語グラフ推論ベンチマークである NLGraph を提案し、LLMs が初歩的なグラフ推論能力を示すことを示し、より簡単なタスクの性能を向上させるために Build-a-Graph と Algorithmic prompting を提案します。結果は改善を示す一方で、複雑なグラフ推論は依然として難しい。
Large language models (LLMs) are increasingly adopted for a variety of tasks with implicit graphical structures, such as planning in robotics, multi-hop question answering or knowledge probing, structured commonsense reasoning, and more. While LLMs have advanced the state-of-the-art on these tasks with structure implications, whether LLMs could explicitly process textual descriptions of graphs and structures, map them to grounded conceptual spaces, and perform structured operations remains underexplored. To this end, we propose NLGraph (Natural Language Graph), a comprehensive benchmark of graph-based problem solving designed in natural language. NLGraph contains 29,370 problems, covering eight graph reasoning tasks with varying complexity from simple tasks such as connectivity and shortest path up to complex problems such as maximum flow and simulating graph neural networks. We evaluate LLMs (GPT-3/4) with various prompting approaches on the NLGraph benchmark and find that 1) language models do demonstrate preliminary graph reasoning abilities, 2) the benefit of advanced prompting and in-context learning diminishes on more complex graph problems, while 3) LLMs are also (un)surprisingly brittle in the face of spurious correlations in graph and problem settings. We then propose Build-a-Graph Prompting and Algorithmic Prompting, two instruction-based approaches to enhance LLMs in solving natural language graph problems. Build-a-Graph and Algorithmic prompting improve the performance of LLMs on NLGraph by 3.07% to 16.85% across multiple tasks and settings, while how to solve the most complicated graph reasoning tasks in our setup with language models remains an open research question. The NLGraph benchmark and evaluation code are available at https://github.com/Arthur-Heng/NLGraph.
研究の動機と目的
- 大規模言語モデルが自然言語で記述されたグラフについて推論できるかを評価する。
- 難易度の異なるグラフベースタスクに対する提示戦略の影響を定量化する。
- LLMs の限界を特定する。例えば、偽の相関に対するもろさや複雑なタスクでの利得の低下を含む。
- グラフ推論能力を高めるための指示ベースの prompting 手法を提案する。
提案手法
- 難易度が易〜難の八つのグラフタスクで 29,370 問題を含む NLGraph を開発する。
- タスクごとに問題のインスタンスと自然言語プロンプトを作成するためにランダムグラフ生成器を使用する。
- GPT-3/4 ファミリーをゼロショット、few-shot、チェーン・オブ・ソート、ゼロショット-CoT、least-to-most、self-consistency prompting で評価する。
- いくつかのタスクで部分点指標を導入し、ほぼ正解の推論を捉える。
- 解く前にグラフ記述を概念空間に結びつける Build-a-Graph prompting と、問題固有のアルゴリズムを思い出させる Algorithmic prompting を提案する。

実験結果
リサーチクエスチョン
- RQ1問題が自然言語で記述されている場合、LLMは明示的なグラフアルゴリズム推論を行えるか。
- RQ2プロンプティング戦略は、単純なグラフタスクと複雑なグラフタスクでLLMの性能にどのような影響を与えるか。
- RQ3文脈内の例示と高度な prompting は難しいグラフ推論問題に役立つか。
- RQ4指示ベースの prompting はグラフ問題における偽の相関への依存を緩和できるか。
主な発見
- LLMs は初歩的なグラフ推論能力を示し、チェーン・オブ・ソート prompting を用いると単純タスクでランダム基準より 37.33%〜57.82% 上回った。
- 高度な prompting の効果は、より複雑なグラフ問題では低下し、CoT/LtM/SC はトポロジカルソートや Hamilton 路経路などのタスクで few-shot prompting を下回ることが多い。
- 文脈内学習は複雑なグラフ推論では逆効果となることがあり、ゼロショットが特定のタスクで時に few-shot を上回る。
- LLMs は偽の相関(例えば連結性の chain や clique のケース)に対して脆弱で、パフォーマンスを著しく低下させることがある。
- Build-a-Graph prompting と Algorithmic prompting はいくつかのタスクで 3.07%〜16.85% の利得をもたらすが、最も複雑な問題は依然として未解決の研究課題である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。