Skip to main content
QUICK REVIEW

[논문 리뷰] Reasoning Gets Harder for LLMs Inside A Dialogue

Ivan Kartáč, Mateusz Lango|arXiv (Cornell University)|2026. 03. 20.
Topic Modeling인용 수 0
한 줄 요약

The Boulder 벤치마크는 작업 지향 대화에 내재된 추론 작업일 때 LLM의 추론 성능이 일관되게 하락하는 경향을 보이며, 이는 주로 다중 턴 상호작용에 의해 좌우되고, 역할 조건화 및 도구 사용도 기여합니다.

ABSTRACT

Large Language Models (LLMs) achieve strong performance on many reasoning benchmarks, yet these evaluations typically focus on isolated tasks that differ from real-world usage in task-oriented dialogue (TOD). In this setting, LLMs must perform reasoning inherently while generating text and adhering to instructions on role, format, and style. This mismatch raises concerns about whether benchmark performance accurately reflects models' reasoning robustness in TOD setting. We investigate how framing reasoning tasks within TOD affects LLM performance by introducing BOULDER, a new dynamic benchmark covering eight travel-related tasks that require arithmetic, spatial, and temporal reasoning with both commonsense and formal aspects. Each problem is presented in both isolated and dialogue-based variants, enabling controlled comparison while mitigating data contamination. Experiments on eight LLMs reveal a substantial and consistent performance gap between isolated and dialogue settings. Through ablations and qualitative analysis, we show that this gap is largely driven by the multi-turn nature of dialogue, with additional effects from role conditioning and tool-use requirements. Our results highlight the need to evaluate LLM reasoning in realistic interactive scenarios.

연구 동기 및 목표

  • 추론 작업이 TOD(태스크 지향 대화)로 프레이밍될 때 LLM 성능에 어떤 영향을 주는지 평가한다.
  • 수치 연산, 공간, 시간 추론에 걸친 다이내믹한 여덟 개 작업 벤치마크인 Boulder를 도입한다.
  • 격리된 설정과 대화 설정에서 LLM 성능을 비교하여 대화 효과를 분리한다.
  • TOD에서의 성능 차이를 설명하는 실패 모드와 소거 요인을 식별한다.

제안 방법

  • 여행 도메인 전반의 8개 작업을 통해 산술, 공간 및 시간 추론을 테스트하는 Boulder를 개발한다.
  • 각 문제를 격리형과 대화형 변형으로 제시하여 대조를 가능하게 한다.
  • 훈련 데이터 오염을 피하기 위해 동적이고 자동으로 검증 가능한 데이터를 사용한다.
  • 편향 보정 지표를 가진 자연어 응답으로부터 검증 가능한 답을 추출하기 위해 LLM 기반 파서들을 사용한다.
  • Baseline, Dialogue, Dialogue-concise 설정을 이용해 여덟 개의 LLM(open-weight 및 독점 모델)을 평가한다.
  • TOD에서의 성능 저하 요인을 식별하기 위한 소거 및 정성 분석을 수행한다.
Figure 1: An example from our Boulder benchmark, showing the same problem instance in two variants: as an isolated task and within a task-oriented dialogue.
Figure 1: An example from our Boulder benchmark, showing the same problem instance in two variants: as an isolated task and within a task-oriented dialogue.

실험 결과

연구 질문

  • RQ1추론 작업을 태스크 지향 대화에 내재시키는 것이 격리 해결에 비해 LLM 성능을 저하시킬까?
  • RQ2다이얼로그 설정의 어떤 측면들(다중 턴, 역할 조건화, 도구 사용)이 관찰되는 차이에 가장 크게 기여하는가?
  • RQ3도메인/도구 축소와 턴 구조를 간소화하면 성능 하락을 완화할 수 있는가?
  • RQ4다양한 모델 크기와 아키텍처가 Boulder의 격리된 설정과 대화 설정에서 어떻게 다르게 작동하는가?

주요 결과

  • 여덟 개의 LLM에 걸쳐 격리 설정과 대화 설정 사이에 상당하고 일관된 성능 차이가 있다.
  • 다중 턴 대화가 성능 하락의 지배적 원인이다.
  • 역할 조건화와 도구 사용 요건도 대화에서의 성능 저하에 기여한다.
  • 도구를 제거하거나 대화 기능을 축소하면 점수가 개선될 수 있지만, 기본 성능을 회복하는 경우는 드물다.
  • 모델 크기는 설정 간 성능 차이에 미미한 영향을 미치며, 큰 모델도 차이가 나타난다.
  • 정성 분석에서 모델들이 대화에서 종종 짧고 비단계적이거나 거부하는 응답을 제공하는 경향이 있다.
Figure 2: Evaluation results of 8 LLMs in the three main settings, averaged over all tasks. Asterisks indicate statistically significant differences between the Baseline and Dialogue , and Dialogue and Dialogue-concise settings (t-test, $*\colon p<0.05$ , $**\colon p<0.01$ , ${*}{*}{*}\colon p<0.001
Figure 2: Evaluation results of 8 LLMs in the three main settings, averaged over all tasks. Asterisks indicate statistically significant differences between the Baseline and Dialogue , and Dialogue and Dialogue-concise settings (t-test, $*\colon p<0.05$ , $**\colon p<0.01$ , ${*}{*}{*}\colon p<0.001

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.