[論文レビュー] Reasoning Distillation for Lightweight Automated Program Repair
論文は、大規模な教師モデルから蒸留された軽量の記号的推論 supervising が、CodeT5ベースのコンパクトな student の修正タイプ分類を改善し、モデルサイズを増やさず、希少なバグカテゴリでより強い利得を生むことを示す。
We study whether lightweight symbolic reasoning supervision can improve fix type classification in compact automated program repair models. Small code models are attractive for resource-constrained settings, but they typically produce only a single prediction, making it unclear whether they learn meaningful program structure or rely on shallow correlations. We propose a reasoning distillation approach in which a large teacher model provides structured symbolic reasoning tags alongside fix-type labels. These tags capture high-level causal properties of bugs without relying on free-form explanations. We train a CodeT5-based student model under label-only and reasoning-distilled settings on the IntroClass benchmark. Reasoning supervision consistently improves macro averaged performance, particularly on less frequent bug categories, without increasing model size or complexity. We further analyze the relationship between reasoning accuracy and fix-type prediction, showing that correct reasoning traces strongly correlate with correct predictions, while not fully determining them. Our results suggest that symbolic reasoning distillation is a practical way to improve interpretability and robustness in lightweight program repair models.
研究の動機と目的
- Resource-constrained環境のための軽量デバッグツールを動機づける。
- 記号的推論 supervising 蒸留がコンパクトモデルの修正タイプ予測を改善するかを調査する。
- 推論 supervising が精度、macro-F1、および推論品質に与える影響を評価する。
- 推論トレースが欠陥タイプ分類の改善と相関するかを評価する。
提案手法
- 大規模な講師モデルを用いて修正タイプラベルとコンパクトな記号的推論タグを生成する。
- CodeT5ベースの student を、ラベルのみと修正タイプと推論タグの同時予測の2条件で訓練する。
- IntroClassデータセットを固定の訓練/検証分割で評価する。
- 修正タイプ予測の精度と macro-F1 を比較し、推論トレースの教師との適合度を評価する。
- 各修正タイプごとの利得と推論の正確さが修正タイプの精度に与える条件性を分析する。
実験結果
リサーチクエスチョン
- RQ1大規模な講師モデルから蒸留された軽量の記号的推論 supervising が、モデルサイズや複雑さを増やさずに、コンパクトな自動プログラム修正モデルの修正タイプ分類を改善できるか。
- RQ2修正タイプラベルと構造化された記号的推論タグの共同 supervising がラベルのみの訓練より良い性能を生み出すか、そして推論の正確さが修正タイプ予測とどう関係するか。
- RQ3小さなモデルは講師生成の記号推論トレースをどれだけ再現できるか、そしてそれが下流のバグ分類とどう関連するか。
- RQ4利得は頻度が低い又はより複雑なバグカテゴリに集中するか、またこの設定における推論蒸留の限界は何か。
主な発見
| Model | Accuracy | Macro F1 |
|---|---|---|
| Student (label-only) | 0.491 | 0.213 |
| Student (reasoning-distilled) | 0.544 | 0.249 |
- 推論蒸留済みの student は、ラベルのみのベースラインより修正タイプ精度が高くなる(0.544 対 0.491)、Macro-F1 も高い(0.249 対 0.213)。
- 推論 supervising は macro 平均の改善をより強く生み出し、頻度が低いバグカテゴリを助ける。
- 推論トレースは高忠実度で再現され、推論 macro-F1 は 0.545、厳密一致は 0.789;主要なタグの多くは精度 0.87 以上を超える。
- 各修正タイプごとの利得は WRONG_CONDITION、LOOP_BOUND、WRONG_OPERATOR、MISSING_CASE で最大化され、ベースラインを上回る改善を示す。
- 正しい推論が必ずしも正しい修正タイプを意味しないケースがあり、推論は内部表現を助けるが分類の曖昧さを完全には解消しない。
- 補足の JSON ベース蒸留研究では、JSON supervising がより表現力があるが、データ量が少ない状況の小モデルには難しいことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。