Skip to main content
QUICK REVIEW

[論文レビュー] Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering

Kishan Maharaj, Narayanan Menon|arXiv (Cornell University)|Feb 19, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文は LongContextCodeQA を紹介する。LongCodeBench の多言語拡張で COBOL と Java のデータセットを含み、シャッフルされた選択肢、オープンエンド生成、誤誘導要素を用いた頑健性を最大1Mトークンの文脈で評価し、認識と生成のギャップが継続的に存在すること、言語依存の脆弱性があることを明らかにしている。

ABSTRACT

Large language models (LLMs) increasingly assist software engineering tasks that require reasoning over long code contexts, yet their robustness under varying input conditions remains unclear. We conduct a systematic study of long-context code question answering using controlled ablations that test sensitivity to answer format, distractors, and context scale. Extending LongCodeBench Python dataset with new COBOL and Java question-answer sets, we evaluate state-of-the-art models under three settings: (i) shuffled multiple-choice options, (ii) open-ended questions and (iii) needle-in-a-haystack contexts containing relevant and adversarially irrelevant information. Results show substantial performance drops in both shuffled multiple-choice options and open-ended questions, and brittle behavior in the presence of irrelevant cues. Our findings highlight limitations of current long-context evaluations and provide a broader benchmark for assessing code reasoning in both legacy and modern systems.

研究の動機と目的

  • 文脈長さを最大 1,000,000 トークンまで拡張した場合、Python、COBOL、Java の長文コンテキストコード QA モデルの性能を評価する。
  • 入力変動に対する頑健性を調べるため、オプションのシャッフル、オープンエンド生成、針穴型誤誘導要素を導入する。
  • 長文コンテキスト推論における言語間一般化を評価し、失敗モードを特定する。
  • 企業向け・レガシーコードの推論忠実性を測るための多言語ベンチマークと制御された摂動を提供する。

提案手法

  • LongCodeBench を COBOL および Java の QA データセット(OPPSCAL COBOL、内部 IBM COBOL、主要 GitHub リポジトリからの Java)で拡張し、長文コンテキスト推論を検証する。
  • With Options(シャッフルあり)と Without Options(オープンエンド)設定を用いて認識と生成を分離する。
  • 誤誘導要素(無関係なコード断片)を挿入し、ニードルの位置(先頭・中間・末尾)を変えて検索の頑健性を評価する。
  • GPT-4o、Gemini、Claude、LLaMA、Mistral、Qwen、Granite など様々なモデルを、32k から 1,024k トークンまでの文脈長で評価する。
  • 文脈長が増加するにつれての性能、言語、評価設定を分析し、失敗モードを特定する。
Figure 1: Accuracy trends across context lengths for Python dataset, comparing “With Options” and “Without Options” settings.
Figure 1: Accuracy trends across context lengths for Python dataset, comparing “With Options” and “Without Options” settings.

実験結果

リサーチクエスチョン

  • RQ1モデルの正確さは Python、COBOL、Java の長文コンテキスト長に伴いどのようにスケールするか?
  • RQ2選択肢がシャッフルされたり削除されたりした場合、モデルは答えの選択肢に依存するのか、それとも真の推論を行っているのか?
  • RQ3長いコード文脈に挿入された無関係情報に対してモデルはどれくらい頑健か?
  • RQ4COBOL のようなレガシー言語における有効な文脈長と検索に言語特有の差はあるか?
  • RQ5最新モデル間で長文コンテキスト推論の一般的な失敗モードにはどのようなものがあるか?

主な発見

  • すべてのモデルで認識と生成のギャップが観測され、オプションが削除されると正確さが低下する(Python で 15–35 ポイント)。
  • 文脈長が増えてもパフォーマンスが単調にスケールしない。いくつかのモデルは文脈が大きくなると劣化したり、挙動が一貫しなくなる。
  • COBOL では OPPSCAL がオプションありでほぼ完璧な性能を示す一方、オプションなしでは大きく低下。内部 IBM COBOL データはより難しく、ただし Gemini 系モデルは長文文脈でよりうまく対応。
  • Java ではフロンティア系モデルが多肢選択で優れている一方、長文コンテキスト最適化モデル(例: Gemini-2.5-Flash)では最大 1M トークンまで安定化/改善傾向を示し、オープンエンドの性能は一部モデルで依然高い。
  • 針穴実験は強い最近傍性と位置依存の検索を示し、COBOL では末尾の文脈の方が先頭よりも取り出しやすいことが多い。関連するニードルがあってもオープンエンド生成は依然として難しい。
  • 言語を跨いでも生成は脆弱であり、多肢選択の表層的手掛かりに頼る傾向や誤誘導要素に対する感度は、真の長文コンテキスト推論のギャップを示す。
Figure 2: Accuracy trends for OPPSCAL dataset.
Figure 2: Accuracy trends for OPPSCAL dataset.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。