[論文レビュー] TRACE: Evaluating Execution Efficiency of LLM-Based Code Translation
TRACEは、1,000のタスクとストレステストを用いてC++、Java、PythonのLLM翻訳コードの実行効率を評価するベンチマークで、28の代表的なLLMを対象とする。正確性が必ずしも効率性を保証しないことを浮き彫りにし、一般的な効率低下を特定する。
While Large Language Models (LLMs) have substantially improved the functional correctness of code translation, the critical dimension of extit{execution efficiency} remains overlooked. We present extbf{ extsc{trace}}, the first benchmark to explicitly assess efficiency in LLM-translated code. extsc{trace} includes 1,000 efficiency-critical tasks across C++, Java, and Python, each augmented with stress tests that reveal efficiency degradations often overlooked by small-scale tests. Using extsc{trace}, we conduct an extensive evaluation of 28 representative LLMs and highlight several key insights: 1) Correctness is not a reliable proxy for efficiency: the correctness leader extit{Claude-4-think} achieves only mid-level time efficiency, outperformed by smaller open-source LLMs such as extit{Qwen2.5-Coder-14B-Instruct}. 2) Inefficiency is both prevalent and patterned: 23.5\% of correct translations exhibit pronounced inefficiency, distributed across algorithmic faults (11.9\%), language construct mismatches (66.4\%), and resource mismanagement (21.7\%). 3) Inference-time prompt strategies bring only modest improvements, suggesting that current LLMs lack intrinsic efficiency awareness. Together, our results establish efficiency as an essential dimension of code translation and position extsc{trace} as a principled foundation for efficiency-oriented evaluation.
研究の動機と目的
- LLMベースのコード翻訳における実行効率評価の必要性を動機づける。
- 翻訳コードの効率性に焦点を当てた最初のベンチマークとしてTRACEを紹介する。
- 複数のプログラミング言語にわたって広範なLLM(28モデル)を評価する。
- 翻訳コードにおける非効率性の有病率とパターンを特徴づける。
- コード翻訳の効率志向評価のための principledな基盤を提供する。
提案手法
- C++、Java、Pythonで1000の効率性-criticalなタスクを定義する。
- タスクにストレステストを追加して効率低下を明らかにする。
- 翻訳コードの効率指標について28の代表的なLLMを評価する。
- カテゴリ別に非効率性を分析する:アルゴリズム的欠陥、言語構成要素の不整合、資源の誤管理。
- 正確性と時間効率を比較して相関とギャップを評価する。
- TRACEをコード翻訳の効率のベンチマークおよび評価フレームワークとして確立する。
実験結果
リサーチクエスチョン
- RQ1LLM翻訳コードの正確性はその時間効率を信頼性高く反映するか。
- RQ2正確な翻訳の中で効率低下はどれくらい一般的で、どのようなパターンがあるか。
- RQ3観察された非効率性を最もよく説明するカテゴリ(アルゴリズム的欠陥、言語構成要素の不整合、資源の誤管理)は言語横断でどれか。
- RQ4推論時のプロンプト戦略はモデル間で効率を実質的に改善するか。
- RQ5C++、Java、Pythonの翻訳および異なるLLM間で効率特性はどう異なるか。
主な発見
- 正確性は時間効率の信頼できる代理指標ではなく、正確性のトップ層が効率では中位であることがある。
- 正確な翻訳の中で23.5%が著しく非効率的である。
- 非効率性の分布には11.9%がアルゴリズム的欠陥、66.4%が言語構成要素の不整合、21.7%が資源の誤管理。
- 推論時のプロンプト戦略は効率に対して限られた改善しかもたらさない。
- TRACEはLLMベースのコード翻訳の効率志向評価のための principledな基盤を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。