[논문 리뷰] Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering
논문은 LongContextCodeQA를 소개합니다. 이는 COBOL 및 Java 데이터셋을 포함한 LongCodeBench의 다국어 확장이며, 섞인 옵션, 자유로운 생성, 그리고 방해 요소 삽입에 대한 최대 1M 토큰 컨텍스트에서 LLM의 강건성을 평가합니다. 이는 인식-생성 간 차이가 지속적으로 존재하고 언어 의존적인 취약점이 있음을 보여줍니다.
Large language models (LLMs) increasingly assist software engineering tasks that require reasoning over long code contexts, yet their robustness under varying input conditions remains unclear. We conduct a systematic study of long-context code question answering using controlled ablations that test sensitivity to answer format, distractors, and context scale. Extending LongCodeBench Python dataset with new COBOL and Java question-answer sets, we evaluate state-of-the-art models under three settings: (i) shuffled multiple-choice options, (ii) open-ended questions and (iii) needle-in-a-haystack contexts containing relevant and adversarially irrelevant information. Results show substantial performance drops in both shuffled multiple-choice options and open-ended questions, and brittle behavior in the presence of irrelevant cues. Our findings highlight limitations of current long-context evaluations and provide a broader benchmark for assessing code reasoning in both legacy and modern systems.
연구 동기 및 목표
- 컨텍스트 길이가 최대 1백만 토큰까지 확장될 때 Python, COBOL, Java에서 장문 컨텍스트 코드 QA 모델의 성능을 평가한다.
- 옵션 섞기(shuffling)와 개방형 생성(open-ended generation), 바늘 같은 방해요소(distractors) 삽입을 도입하여 입력 변형에 대한 강건성을 조사한다.
- 장문 컨텍스트 추론에서의 언어 간 일반화를 평가하고, 실패 모드를 식별한다.
- 기업 및 레거시 코드에서의 추론 충실도를 더 잘 측정하기 위한 다국어 벤치마크와 제어된 교란을 제공한다.
제안 방법
- LongCodeBench에 COBOL 및 Java QA 데이터셋(OPPSCAL COBOL, 내부 IBM COBOL, 및 GitHub의 주요 저장소에서 가져온 Java)을 확장하여 장문 컨텍스트 추론을 테스트한다.
- Recognition과 Generation을 구분하기 위해 옵션 포함(섞인 옵션)과 옵션 미포함(개방형) 설정을 사용한다.
- 관련 없는 코드 조각인 distractors를 주입하고 바늘 위치(Start/Middle/End)를 다양하게 하여 검색 강건성을 평가한다.
- 컨텍스트 길이를 32k에서 1,024k 토큰까지 다양한 모델(GPT-4o, Gemini, Claude, LLaMA, Mistral, Qwen, Granite)을 대상으로 평가한다.
- 컨텍스트 길이가 커짐에 따라 언어, 평가 설정에 따른 성능 변화를 분석하여 실패 모드를 식별한다.

실험 결과
연구 질문
- RQ1모델의 정확도가 Python, COBOL, Java에서 장문 컨텍스트 길이에 따라 어떻게 확장되는가?
- RQ2옵션이 섞이거나 제거될 때 모델이 실제 추론보다 정답 옵션에 의존하는가?
- RQ3긴 코드 컨텍스트에 삽입된 무관한 정보에 대해 모델은 얼마나 강건한가?
- RQ4특히 COBOL과 같은 레거시 언어에 대해 효과적인 컨텍스트 길이와 검색에서 언어별 차이가 있는가?
- RQ5최첨단 모델들 간의 장문 컨텍스트 추론에서의 일반적인 실패 모드는 무엇인가?
주요 결과
- 모든 모델에서 인식-생성 간 차이가 나타나며, 옵션이 제거될 때 정확도가 감소한다(파이썬에서 15~35포인트).
- 컨텍스트 길이가 증가해도 성능이 단조롭게 증가하지 않으며, 일부 모델은 컨텍스트 확장에 따라 저하되거나 일관성 없이 작동한다.
- COBOL에서 OPPSCAL은 옵션이 있을 때 거의 완벽한 성능을 보이지만 옵션이 없으면 큰 하락을 보이며, 내부 IBM COBOL 데이터는 더 도전적이지만 Gemini 계열 모델은 긴 컨텍스트에서 더 잘 대처한다.
- Java에서는 프런티어 모델이 객관식에서 뛰어나지만, 긴 컨텍스트 최적화 모델(Gemini-2.5-Flash 등)에서 최대 1M 토큰까지도 안정화되거나 개선되는 경향이 있으며, 일부 모델의 자유로운 생성 성능은 여전히 강력하다.
- 바늘 찾기 실험은 강한 최근접성 편향과 위치 의존적 검색을 드러내며, COBOL의 경우 시작 부분보다 끝 컨텍스트가 더 쉽고, 관련 바늘이 있어도 자유형 생성은 여전히 도전적이다.
- 언어를 가로질러 생성은 여전히 취약하고, 객관식에서의 피상적 단서에 의존하거나 방해 요소에 민감한 경향은 장문 컨텍스트 추론의 진정한 한계가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.