Skip to main content
QUICK REVIEW

[논문 리뷰] A Differential Fuzzing-Based Evaluation of Functional Equivalence in LLM-Generated Code Refactorings

Simantika Dristi, Matthew B. Dwyer|arXiv (Cornell University)|2026. 02. 17.
Software Testing and Debugging Techniques인용 수 0
한 줄 요약

이 논문은 differential fuzzing(Eq@DFuzz)을 이용해 여섯 모델, 세 데이터셋, 두 리팩토링 유형에 걸친 LLM이 생성한 코드 리팩토링의 기능적 동등성을 평가하고, 상당한 비동등성 및 테스트 스위트 기반 평가의 한계를 드러낸다.

ABSTRACT

With the rapid adoption of large language models (LLMs) in automated code refactoring, assessing and ensuring functional equivalence between LLM-generated refactoring and the original implementation becomes critical. While prior work typically relies on predefined test cases to evaluate correctness, in this work, we leverage differential fuzzing to check functional equivalence in LLM-generated code refactorings. Unlike test-based evaluation, a differential fuzzing-based equivalence checker needs no predefined test cases and can explore a much larger input space by executing and comparing thousands of automatically generated test inputs. In a large-scale evaluation of six LLMs (CodeLlama, Codestral, StarChat2, Qwen-2.5, Olmo-3, and GPT-4o) across three datasets and two refactoring types, we find that LLMs show a non-trivial tendency to alter program semantics, producing 19-35% functionally non-equivalent refactorings. Our experiments further demonstrate that about 21% of these non-equivalent refactorings remain undetected by the existing test suites of the three evaluated datasets. Collectively, the findings of this study imply that reliance on existing tests might overestimate functional equivalence in LLM-generated code refactorings, which remain prone to semantic divergence.

연구 동기 및 목표

  • LLM 주도 코드 리팩토링의 신뢰할 수 있는 평가를 테스트 통과 지표를 넘어 마련한다.
  • 다양한 데이터셋에서 여러 LLM이 생성한 리팩토링의 기능적 동등성을 평가한다.
  • 전통적인 테스트 스위트가 의미적 차이의 상당 부분을 놓칠 수 있음을 보여준다.

제안 방법

  • 여섯 개의 LLM(CodeLlama, Codestral, StarChat2, Qwen-2.5, Olmo-3, GPT-4o)을 사용해 리팩토링을 생성한다.
  • 두 개의 프롬프트(성능 최적화 및 코드 단순화)를 적용해 세 가지 데이터셋에서 4,368개의 리팩토링을 생성한다.
  • 리팩토링당 1,000–2,000개의 테스트 입력을 생성하는 differential fuzzing 체커인 Eq@DFuzz로 기능적 동등성을 평가한다.
  • Eq@DFuzz 결과를 전통적 테스트 스위트 정확도(Corr@Test)와 비교한다.
  • 데이터셋(HumanEval, MBPP, APPS) 및 리팩토링 유형(단순화, 최적화) 전반의 동등성을 분석한다.
  • 비동등 리팩토링 및 테스트 스위트의 한계를 보고한다.
Figure 1. Overview of our approach
Figure 1. Overview of our approach

실험 결과

연구 질문

  • RQ1RQ1: differential fuzzing에 따라 LLM이 생성한 코드 리팩토링 중 원래와 기능적으로 동등한 비율은 어느 정도인가?
  • RQ2RQ2: 기존의 테스트 스위트가 비동등성을 신뢰성 있게 감지하는가, 아니면 Eq@DFuzz에 비해 차이가 있는가?
  • RQ3RQ3: 데이터셋 및 리팩토링 유형에 따라 동등성 비율은 어떻게 달라지는가?
  • RQ4RQ4: 리팩토링의 복잡성이 의미적 차이의 가능성에 영향을 미치는가?

주요 결과

모델리팩토링HEMBPPAPPS전체
CodeLlamaSimplification33.33%24.24%26.55%26.23%
CodeLlamaOptimization30.95%23.19%15.93%
CodestralSimplification23.81%36.07%40.35%35.14%
CodestralOptimization27.12%50.85%42.11%
StarChat2Simplification26.23%33.33%45.54%34.24%
StarChat2Optimization32.28%32.20%35.40%
Qwen-2.5Simplification13.18%27.14%30.09%22.01%
Qwen-2.5Optimization18.32%18.18%27.52%
Olmo-3Simplification18.55%12.70%43.88%21.73%
Olmo-3Optimization14.40%8.96%28.09%
GPT-4oSimplification8.53%15.71%20.18%18.58%
GPT-4oOptimization19.69%27.42%28.57%
  • LLMs는 모델, 데이터셋 및 리팩토링 유형에 걸쳐 상당한 비동등 리팩토링의 비율(19-35%)을 생성한다.
  • APPS 데이터셋이 MBPP(25.33%) 및 HumanEval(22.10%)에 비해 가장 높은 비동등성을 보인다(32.09%).
  • 비동등 비율은 단순화와 최적화 사이에서 유사하게 나타난다(약 26%).
  • 약 21%의 비동등 리팩토링은 기존 테스트에서 모든 테스트를 통과(Corr@Test = 1)하지만 Eq@DFuzz에서는 비동등이다.
  • 테스트 스위트에 의존하는 경우 LLM이 생성한 리팩토링의 기능적 동등성을 과대 평가할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.