QUICK REVIEW

[논문 리뷰] TRACE: Evaluating Execution Efficiency of LLM-Based Code Translation

Zhihao Gong, Zeyu Sun|arXiv (Cornell University)|2026. 03. 17.

Natural Language Processing Techniques인용 수 0

한 줄 요약

TRACE는 대표적 28개의 LLM으로 평가된 상태에서 1,000개의 과제와 스트레스 테스트를 사용하여 C++, Java, Python 전반의 LLM-번역 코드의 실행 효율성을 측정하는 벤치마크입니다. 이는 정답이 항상 효율을 보장하지 않으며 일반적인 효율 저하를 식별한다는 것을 보여줍니다.

ABSTRACT

While Large Language Models (LLMs) have substantially improved the functional correctness of code translation, the critical dimension of extit{execution efficiency} remains overlooked. We present extbf{ extsc{trace}}, the first benchmark to explicitly assess efficiency in LLM-translated code. extsc{trace} includes 1,000 efficiency-critical tasks across C++, Java, and Python, each augmented with stress tests that reveal efficiency degradations often overlooked by small-scale tests. Using extsc{trace}, we conduct an extensive evaluation of 28 representative LLMs and highlight several key insights: 1) Correctness is not a reliable proxy for efficiency: the correctness leader extit{Claude-4-think} achieves only mid-level time efficiency, outperformed by smaller open-source LLMs such as extit{Qwen2.5-Coder-14B-Instruct}. 2) Inefficiency is both prevalent and patterned: 23.5\% of correct translations exhibit pronounced inefficiency, distributed across algorithmic faults (11.9\%), language construct mismatches (66.4\%), and resource mismanagement (21.7\%). 3) Inference-time prompt strategies bring only modest improvements, suggesting that current LLMs lack intrinsic efficiency awareness. Together, our results establish efficiency as an essential dimension of code translation and position extsc{trace} as a principled foundation for efficiency-oriented evaluation.

연구 동기 및 목표

LLM 기반 코드 번역에서 실행 효율성을 평가할 필요성을 제시한다.
번역된 코드의 효율성에 초점을 맞춘 최초의 벤치마크로 TRACE를 도입한다.
여러 프로그래밍 언어에 걸쳐 광범위한 LLM(28개 모델)을 평가한다.
번역된 코드의 비효율성의 범위와 패턴을 특성화한다.
코드 번역에서 효율성을 지향하는 평가를 위한 체계적인 기반을 제시한다.

제안 방법

C++, Java, Python에서 1,000개의 효율 크리티컬 태스크를 정의한다.
태스크에 스트레스 테스트를 보강하여 효율 저하를 드러낸다.
번역된 코드의 효율성 지표에 대해 28개의 대표 LLM을 평가한다.
비효율성을 범주별로 분석한다: 알고리즘 결함, 언어 구성 매칭 불일치, 자원 관리의 비효율성.
정확성과 시간 효율성을 비교하여 상관관계와 격차를 평가한다.
TRACE를 코드 번역의 효율성 벤치마크 및 평가 프레임워크로 확립한다.

실험 결과

연구 질문

RQ1LLM 번역 코드의 정확성이 시간 효율성을 신뢰성 있게 반영하는가?
RQ2정확한 번역에서 효율 저하가 얼마나 만연하며 그 패턴은 무엇인가?
RQ3관찰된 비효율성에 대해 어떤 범주가 (알고리즘적 결함, 언어 구성 매칭 불일치, 자원 관리의 비효율성) 언어 간에 가장 잘 설명하는가?
RQ4추론 시점의 프롬프트 전략이 모델 간 효율성을 실제로 향상시키는가?
RQ5C++, Java, Python 번역 및 서로 다른 LLM 간에 효율성 특성이 어떻게 다른가?

주요 결과

정확성은 시간 효율성의 신뢰할 수 있는 대리변수가 아니며, 정확성에서 선도적인 일부 모델은 효율성 측면에서 중간 수준이다.
올바른 번역 중에서도 23.5%가 명확한 비효율성을 보인다.
비효율성 분포는 11.9% 알고리즘적 결함, 66.4% 언어 구성 매칭 불일치, 21.7% 자원 관리의 비효율성으로 구성된다.
추론 시 프롬프트 전략은 효율성에 대해 미약한 개선만을 가져온다.
TRACE는 LLM 기반 코드 번역의 효율성 지향 평가를 위한 체계적 기반을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.