[論文レビュー] Reasoning Gets Harder for LLMs Inside A Dialogue
Boulder ベンチマークは、タスク指向ダイアログ内に組み込まれた場合にLLM の推論性能が一貫して低下することを示しており、主に多ターン対話が影響し、ロール条件付けとツール使用も寄与する。
Large Language Models (LLMs) achieve strong performance on many reasoning benchmarks, yet these evaluations typically focus on isolated tasks that differ from real-world usage in task-oriented dialogue (TOD). In this setting, LLMs must perform reasoning inherently while generating text and adhering to instructions on role, format, and style. This mismatch raises concerns about whether benchmark performance accurately reflects models' reasoning robustness in TOD setting. We investigate how framing reasoning tasks within TOD affects LLM performance by introducing BOULDER, a new dynamic benchmark covering eight travel-related tasks that require arithmetic, spatial, and temporal reasoning with both commonsense and formal aspects. Each problem is presented in both isolated and dialogue-based variants, enabling controlled comparison while mitigating data contamination. Experiments on eight LLMs reveal a substantial and consistent performance gap between isolated and dialogue settings. Through ablations and qualitative analysis, we show that this gap is largely driven by the multi-turn nature of dialogue, with additional effects from role conditioning and tool-use requirements. Our results highlight the need to evaluate LLM reasoning in realistic interactive scenarios.
研究の動機と目的
- タスク指向ダイアログ(TOD)内で構成された推論タスクがLLMのパフォーマンスに与える影響を評価する。
- 算術・空間・時間推論をカバーする動的な8タスクベンチマーク Boulder を導入する。
- 孤立設定と対話設定を比較し、対話効果を分離する。
- TODにおける性能ギャップの原因となる失敗モードとアブレーション因子を特定する。
提案手法
- 算術・空間・時間推論をテストする旅行分野の8タスクを含む Boulder を開発。
- 制御比較のため、各問題を孤立版と対話版の双方で提示。
- トレーニングデータの汚染を避けるため動的で自動検証可能なデータを使用。
- 自然言語応答から検証可能な解答を抽出する偏り補正済み指標を用いて、LLMベースのパーサを活用。
- ベースライン、対話、対話-簡潔の設定で8つのLLM(オープンウェイトおよび独自モデル)を評価。
- TODにおける性能低下の原因を特定するアブレーションと定性的分析を実施。

実験結果
リサーチクエスチョン
- RQ1推論タスクをタスク指向ダイアログに埋め込むと、孤立解法と比較してLLMの性能は低下するか。
- RQ2対話設定のどの側面(多ターン、ロール条件付け、ツール使用)が観察されるギャップに最も寄与するか。
- RQ3ドメイン/ツールを減らすなど対話コンポーネントを単純化したり、ターン構造を変更して性能低下を緩和できるか。
- RQ4孤立設定と対話設定でモデルサイズやアーキテクチャが Boulder でどのように異なる性能を示すか。
主な発見
| タスク | ドメイン | 例題クエリ | 抽出値 | 指標 |
|---|---|---|---|---|
| Ticket price | trains | 最初に総額を計算できますか?私たちは4名です。3名が往復切符を購入、1名はスタンダードクラス、2名がファーストクラス – 1名は33%割引、もう1名は割引なし。もう1名は片道切符を購入しています。 | amount (float) | Accuracy |
| Booking price | hotels | 最初に総額を計算できますか?4泊の5名分です。1名はシングルルーム、残りはダブルルームを共有。ダブルルームの1名がチェックインを1日遅らせます。 | amount (float) | Accuracy |
| Departure time | trains | 日没前に着くために最終の出発時刻はいつですか? | time (HH:MM) | Accuracy |
| Departure frequency | trains | 19:00から深夜までの間、平均して電車はどのくらいの頻度で運行しますか? | minutes (float) | MAE |
| Opening hours | restaurants | 水曜日の14:00から18:30の間、全時間開店しているのはどれですか? | venues (array[string]) | Precision |
| Distance | hotels, restaurants | ホテルからレストランまでの距離はどのくらいですか? | distance (float) | MAE |
| Directional relations | attractions, restaurants | Archaeology and Anthropology MuseumはPizza Expressの南ですか? | yes/no (bool) | Accuracy |
| Shortest path | attractions, hotels | Broughton House Gallery、King’s College、Camboatsを訪れたい。ホテルを起点に歩き、最後の場所からタクシーで戻る。どの順序で回れば歩行距離を最小にできるか? | path (array[string]) | Accuracy |
- 8つのLLM間で孤立設定と対話設定の間に実質的で一貫した性能ギャップが存在する。
- 多ターンの対話が性能低下の支配的な要因。
- ロール条件付けとツール使用要件も対話での性能低下に寄与。
- ツールを削除したり対話機能を圧縮するとスコアは改善するが、ベースラインの性能を回復することは稀。
- モデルサイズは設定間の性能差に与える影響が控えめで、巨大モデルでもギャップが生じる。
- 定性的分析では、対話でモデルがしばしば短い非逐次的な説明や拒否を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。