QUICK REVIEW

[論文レビュー] Historian: Reducing Manual Validation in APR Benchmarking via Evidence-Based Assessment

Sahand Moslemi, Mayasah Lami|arXiv (Cornell University)|Feb 28, 2026

Software Testing and Debugging Techniques被引用数 0

ひとこと要約

Historianは大規模言語モデルを用いて新しいAPRパッチを歴史的参照セットの検証済パッチと比較し、証拠に基づく多参照の正当性判断を可能にし、手動検証を削減します。高い自動化を実現し、既存のAPCA手法を補強します。

ABSTRACT

Assessing the correctness of patches generated by Automated Program Repair (APR) is a major bottleneck. Manual validation is labor-intensive and limited: exact matching overlooks valid variants, while semantic inspection is subjective and hard to reproduce. Existing Automated Patch Correctness Assessment (APCA) often relies on opaque predictive models that treat each patch as novel, repeatedly re-assessing semantically redundant patches. Our analysis of a large corpus of tool-generated patches reveals a duality: about 39% of unique correct patches are syntactic clones, suggesting opportunities for automation, yet about 65% of bugs have multiple distinct correct fixes, making single-reference assessment insufficient. We present Historian, a framework that leverages Large Language Models to perform multi-reference comparisons against a knowledge base of historically validated patches, producing traceable, evidence-based verdicts while conservatively isolating novel cases as Unknown. In leave-one-tool-out evaluation, Historian achieves 95.0% coverage with 88.4% accuracy, reducing manual validation to 5% of patches. As an evidence-based pre-filter, enhancing the accuracy of standalone APCA tools by up to 21.8% and enabling a hybrid pipeline with 86.2% overall accuracy and 100% coverage. A longitudinal analysis of tool-generated patches (2020-2024) shows that redundancy in repair attempts is common, indicating that many patches repeatedly rediscover established ones and strengthening the sustainability of evidence-based APR assessment.

研究の動機と目的

APRパッチの冗長性と多様性を定量化し、証拠ベースの評価を促進する。
Historianという多参照・証拠ベースのパッチ比較フレームワークを導入する。
HistorianがLLMを活用して追跡可能で参照に基づく判断を生成する方法を示す。
ツール・設定・長期ベンチマーク（2020–2024）全体でHistorianの性能を評価する。
歴史的パッチ検証のアーティファクトとデータセットを公開して再現性を促進する。

提案手法

開発者と以前に検証済みツール生成パッチをグラウンドトゥルースラベルと組み合わせた歴史的参照セットを構築する。
LLMベースの意味論的推論を用いて候補パッチとすべての参照パッチとの網羅的なペアワイズ比較を行う。
LLM出力から構造化された関係ラベル（クローンタイプ、意味的類似、意味的同等性）を堅牢な解析パイプラインで抽出する。
2段階のエビデンスベース推論ロジックを適用する： (i) ペアワイズ推論が関係を予備的判断にマッピングする；(ii) 多数決で最終的かつ追跡可能な判定を集約する。

実験結果

リサーチクエスチョン

RQ1多参照・証拠ベースのフレームワークは、さまざまなAPRツール間でパッチの正否を正確に判断できるか。
RQ2歴史的前例の活用が自動化の到達範囲とAPCAの精度に与える影響は。
RQ3Historianは既存のAPCAモデルと組み合わせたハイブリッドパイプラインの事前フィルターとしてどの程度機能するか。
RQ4時間とともに大規模APRパッチコーパスにおける冗長性と多様性のパターンはどのようになるか。

主な発見

22分割のツールを Leave-One-Out 評価で、Historianはカバレッジ95.0%、精度88.4%を達成。
Historianは手動検証をパッチの5%に削減。
エビデンスベースの事前フィルターとして、単独のAPCA精度を最大で21.8%向上させ、86.2%の総合精度かつ100%カバレージのハイブリッドパイプラインを実現。
長期分析（2020–2024）では、正しいパッチの再現性21.8%、冗長性40.0%を示し、歴史的記録の長期的価値を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。