QUICK REVIEW

[논문 리뷰] Reasoning Distillation for Lightweight Automated Program Repair

Aanand K. Balasubramanian, Sashank Silwal|arXiv (Cornell University)|2026. 01. 16.

Software Testing and Debugging Techniques인용 수 0

한 줄 요약

이 논문은 대형 교사 모델로부터 증류된 경량 기호적 추론 감독이 소형 CodeT5 기반 학생 모델의 수정 유형 분류를 개선하되 모델 크기를 증가시키지 않으며, 희귀한 버그 범주에서 더 큰 이득이 있음을 보여준다.

ABSTRACT

We study whether lightweight symbolic reasoning supervision can improve fix type classification in compact automated program repair models. Small code models are attractive for resource-constrained settings, but they typically produce only a single prediction, making it unclear whether they learn meaningful program structure or rely on shallow correlations. We propose a reasoning distillation approach in which a large teacher model provides structured symbolic reasoning tags alongside fix-type labels. These tags capture high-level causal properties of bugs without relying on free-form explanations. We train a CodeT5-based student model under label-only and reasoning-distilled settings on the IntroClass benchmark. Reasoning supervision consistently improves macro averaged performance, particularly on less frequent bug categories, without increasing model size or complexity. We further analyze the relationship between reasoning accuracy and fix-type prediction, showing that correct reasoning traces strongly correlate with correct predictions, while not fully determining them. Our results suggest that symbolic reasoning distillation is a practical way to improve interpretability and robustness in lightweight program repair models.

연구 동기 및 목표

자원 제약 환경에서 경량 디버깅 도구의 필요성을 제시한다.
소형 모델에서 기호적 추론 감독 증류가 수정 유형 예측을 개선하는지 조사한다.
추론 감독이 정확도, 매크로-F1 및 추론 품질에 미치는 영향을 평가한다.
추론 흔적이 향상된 결함 유형 분류와 상관관계가 있는지 평가한다.

제안 방법

대형 교사 모델을 사용하여 수정 유형 레이블과 소형 기호적 추론 태그를 생성한다.
CodeT5 기반 학생 모델을 두 가지 조건으로 학습한다: 레이블만 예측하는 경우와 수정 유형 및 추론 태그를 공동으로 예측하는 경우.
고정된 학습/검증 분할을 가진 IntroClass 데이터셋에서 평가한다.
수정 유형 예측의 정확도와 매크로-F1을 비교하고 교사에 대한 추론 흔적의 충실도를 평가한다.
퍼-수정 유형별 이득 및 추론 정확성에 따른 수정 유형 정확성의 조건화 분석을 수행한다.

실험 결과

연구 질문

RQ1대형 교사 모델에서 증류된 경량 기호적 추론 감독이 소형 자동화된 프로그램 수리 모델의 수정 유형 분류를 모델 크기나 복잡성을 증가시키지 않고 개선할 수 있는가?
RQ2수정 유형 레이블과 구조화된 기호적 추론 태그에 대한 공동 감독이 레이블 만 학습보다 더 나은 성능을 내는가, 그리고 추론 정확성은 수정 유형 예측과 어떤 관계가 있는가?
RQ3소형 모델이 교사가 생성한 기호적 추론 흔적을 얼마나 잘 재현할 수 있으며, 그것이 하위 버그 분류와 어떤 관련이 있는가?
RQ4이득이 덜 자주 나타나거나 더 복잡한 버그 범주에 집중되는가, 이 설정에서 추론 증류의 한계는 무엇인가?

주요 결과

추론 증류를 거친 학생은 레이블-만 기반 기준선보다 수정 유형 정확도(0.544 대 0.491)와 매크로-F1(0.249 대 0.213)이 더 높다.
추론 감독은 매크로 평균 개선을 더 크게 이끌어 희귀한 버그 범주를 돕는다.
추론 흔적은 높은 충실도로 재현되며, 추론 매크로-F1 0.545 및 정확히 일치 0.789; 대부분의 주요 태그는 정확도 0.87를 초과한다.
수정 유형별 이득은 WRONG_CONDITION, LOOP_BOUND, WRONG_OPERATOR, MISSING_CASE에서 가장 커지며 기준선 대비 향상이 있다.
정확한 추론이 항상 올바른 수정 유형을 시사하지 않는 사례가 있어, 추론이 내부 표현을 돕지만 분류의 모호성을 완전히 해결하지는 못한다는 것을 시사한다.
보조적인 JSON 기반 증류 연구는 JSON 감독이 더 표현력이 있지만 저데이터 상황에서 소형 모델에 더 어렵다는 것을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.