Skip to main content
QUICK REVIEW

[논문 리뷰] Reasoning Gets Harder for LLMs Inside A Dialogue

Ivan Kartáč, Mateusz Lango|arXiv (Cornell University)|2026. 03. 20.
Topic Modeling인용 수 0
한 줄 요약

The Boulder 벤치마크는 작업 지향 대화에 내재된 추론 작업일 때 LLM의 추론 성능이 일관되게 하락하는 경향을 보이며, 이는 주로 다중 턴 상호작용에 의해 좌우되고, 역할 조건화 및 도구 사용도 기여합니다.

ABSTRACT

Large Language Models (LLMs) achieve strong performance on many reasoning benchmarks, yet these evaluations typically focus on isolated tasks that differ from real-world usage in task-oriented dialogue (TOD). In this setting, LLMs must perform reasoning inherently while generating text and adhering to instructions on role, format, and style. This mismatch raises concerns about whether benchmark performance accurately reflects models' reasoning robustness in TOD setting. We investigate how framing reasoning tasks within TOD affects LLM performance by introducing BOULDER, a new dynamic benchmark covering eight travel-related tasks that require arithmetic, spatial, and temporal reasoning with both commonsense and formal aspects. Each problem is presented in both isolated and dialogue-based variants, enabling controlled comparison while mitigating data contamination. Experiments on eight LLMs reveal a substantial and consistent performance gap between isolated and dialogue settings. Through ablations and qualitative analysis, we show that this gap is largely driven by the multi-turn nature of dialogue, with additional effects from role conditioning and tool-use requirements. Our results highlight the need to evaluate LLM reasoning in realistic interactive scenarios.

연구 동기 및 목표

  • 추론 작업이 TOD(태스크 지향 대화)로 프레이밍될 때 LLM 성능에 어떤 영향을 주는지 평가한다.
  • 수치 연산, 공간, 시간 추론에 걸친 다이내믹한 여덟 개 작업 벤치마크인 Boulder를 도입한다.
  • 격리된 설정과 대화 설정에서 LLM 성능을 비교하여 대화 효과를 분리한다.
  • TOD에서의 성능 차이를 설명하는 실패 모드와 소거 요인을 식별한다.

제안 방법

  • 여행 도메인 전반의 8개 작업을 통해 산술, 공간 및 시간 추론을 테스트하는 Boulder를 개발한다.
  • 각 문제를 격리형과 대화형 변형으로 제시하여 대조를 가능하게 한다.
  • 훈련 데이터 오염을 피하기 위해 동적이고 자동으로 검증 가능한 데이터를 사용한다.
  • 편향 보정 지표를 가진 자연어 응답으로부터 검증 가능한 답을 추출하기 위해 LLM 기반 파서들을 사용한다.
  • Baseline, Dialogue, Dialogue-concise 설정을 이용해 여덟 개의 LLM(open-weight 및 독점 모델)을 평가한다.
  • TOD에서의 성능 저하 요인을 식별하기 위한 소거 및 정성 분석을 수행한다.
Figure 1: An example from our Boulder benchmark, showing the same problem instance in two variants: as an isolated task and within a task-oriented dialogue.
Figure 1: An example from our Boulder benchmark, showing the same problem instance in two variants: as an isolated task and within a task-oriented dialogue.

실험 결과

연구 질문

  • RQ1추론 작업을 태스크 지향 대화에 내재시키는 것이 격리 해결에 비해 LLM 성능을 저하시킬까?
  • RQ2다이얼로그 설정의 어떤 측면들(다중 턴, 역할 조건화, 도구 사용)이 관찰되는 차이에 가장 크게 기여하는가?
  • RQ3도메인/도구 축소와 턴 구조를 간소화하면 성능 하락을 완화할 수 있는가?
  • RQ4다양한 모델 크기와 아키텍처가 Boulder의 격리된 설정과 대화 설정에서 어떻게 다르게 작동하는가?

주요 결과

과제도메인예시 쿼리추출 값지표
티켓 가격기차먼저 총 가격을 계산해 주시겠어요? 우리 4명입니다. 왕복 티켓을 구입하는 이들이 3명이고, 일반석 한 명과 1등석 두 명인데, 33% 할인이 적용된 한 명과 할인 없이 한 명이 있습니다. 또 한 사람은 편도 티켓을 구입합니다.금액 (실수)정확도
예약 가격호텔먼저 총 가격을 계산해 주시겠어요? 4박 5일 동안 5명이 머물 예정입니다. 한 명은 싱글룸에 머물고 나머지는 더블룸을 공유합니다. 더블룸의 한 명은 하루 늦게 체크인합니다.금액 (실수)정확도
출발 시간기차해가 지기 전에 케임브리지에 도착할 수 있는 가장 마지막 출발 시간은 언제인가요?시간 (HH:MM)정확도
출발 빈도기차19:00에서 자정 사이에 기차가 평균 얼마나 자주 운행합니까?분 (실수)MAE
영업 시간레스토랑수요일에 2시부터 6:30pm 사이에 전체 시간이 열려 있는 곳은 어디인가요?장소 배열정밀도
거리호텔, 레스토랑호텔에서 레스토랑까지의 거리는 얼마나 되나요?거리 (실수)MAE
방향 관계관광지, 레스토랑Archaeology and Anthropology 박물관이 Pizza Express 남쪽에 있나요?예/아니오 (불리언)정확도
최단 경로관광지, 호텔브라우턴 하우스 갤러리, 킹스 칼리지, 그리고 Camboats를 방문하고 싶습니다. 호텔에서 시작해 마지막 곳에서 택시로 돌아올 것이고, 걷는 거리를 최소로 하려면 어떤 순서로 방문해야 하나요?경로 (문자열 배열)정확도
  • 여덟 개의 LLM에 걸쳐 격리 설정과 대화 설정 사이에 상당하고 일관된 성능 차이가 있다.
  • 다중 턴 대화가 성능 하락의 지배적 원인이다.
  • 역할 조건화와 도구 사용 요건도 대화에서의 성능 저하에 기여한다.
  • 도구를 제거하거나 대화 기능을 축소하면 점수가 개선될 수 있지만, 기본 성능을 회복하는 경우는 드물다.
  • 모델 크기는 설정 간 성능 차이에 미미한 영향을 미치며, 큰 모델도 차이가 나타난다.
  • 정성 분석에서 모델들이 대화에서 종종 짧고 비단계적이거나 거부하는 응답을 제공하는 경향이 있다.
Figure 2: Evaluation results of 8 LLMs in the three main settings, averaged over all tasks. Asterisks indicate statistically significant differences between the Baseline and Dialogue , and Dialogue and Dialogue-concise settings (t-test, $*\colon p<0.05$ , $**\colon p<0.01$ , ${*}{*}{*}\colon p<0.001
Figure 2: Evaluation results of 8 LLMs in the three main settings, averaged over all tasks. Asterisks indicate statistically significant differences between the Baseline and Dialogue , and Dialogue and Dialogue-concise settings (t-test, $*\colon p<0.05$ , $**\colon p<0.01$ , ${*}{*}{*}\colon p<0.001

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.