[論文レビュー] Reporting LLM Prompting in Automated Software Engineering: A Guideline Based on Current Practices and Expectations
この論文は、 prompting が LLM ベースのソフトウェア工学研究でどのように報告されているかを実証的に分析し、必須、望ましい、例外的な報告要素を区別するエビデンスに基づくガイドラインを提案します。
Large Language Models, particularly decoder-only generative models such as GPT, are increasingly used to automate Software Engineering tasks. These models are primarily guided through natural language prompts, making prompt engineering a critical factor in system performance and behavior. Despite their growing role in SE research, prompt-related decisions are rarely documented in a systematic or transparent manner, hindering reproducibility and comparability across studies. To address this gap, we conducted a two-phase empirical study. First, we analyzed nearly 300 papers published at the top-3 SE conferences since 2022 to assess how prompt design, testing, and optimization are currently reported. Second, we surveyed 105 program committee members from these conferences to capture their expectations for prompt reporting in LLM-driven research. Based on the findings, we derived a structured guideline that distinguishes essential, desirable, and exceptional reporting elements. Our results reveal significant misalignment between current practices and reviewer expectations, particularly regarding version disclosure, prompt justification, and threats to validity. We present our guideline as a step toward improving transparency, reproducibility, and methodological rigor in LLM-based SE research.
研究の動機と目的
- 現在の SE 研究が LLM ベースの研究におけるプロンプト設計、 testing、最適化をどのように報告しているかを評価する。
- ICSE、FSE、ASE の PC メンバーを対象とした調査を通じて、プロンプト報告に対する査読者の期待を把握する。
- 現在の実践とコミュニティの期待とのギャップを特定し、構造化された報告ガイドラインを提案する。
提案手法
- 約300件の SE 論文の文献分析と、105名の PC メンバーを対象とした調査の2段階の実証研究を実施した。
- 六名の著者間で一貫性を確保するため、反復的なラウンドを用いたコーディング/抽出スキーマを開発した。
- 実際の報告実践を査読者の期待と比較してガイドラインを導出した。
- 再現性パッケージに再現データとコードを提供した。
実験結果
リサーチクエスチョン
- RQ1RQ1: 研究者は現在、SE研究論文でプロンプトをどのように報告しているか?
- RQ2RQ2: SE研究者のプロンプト作成、評価、報告に関する期待は何か?
- RQ3RQ3: 現在の実践はこれらの期待とどの程度一致しているか?
主な発見
| Model | Precision | Recall |
|---|---|---|
| gpt-4.1-mini-2025-04-14 | 68.75 % | 94.83 % |
| deepseek-v3-0324 | 88.46 % | 79.31 % |
| gemini-2.5-flash-preview-05-20 | 86.54 % | 77.59 % |
| Combined result ( ≥1 of 3 ) | 67.86 % | 98.28 % |
- ほとんどの論文は使用した LLM を明記しているが、正確なバージョンはしばしば欠落している(正確なバージョンを指定しているのはわずか 16.43%)。
- 69.93% が少なくとも1つの設定パラメータを報告している。温度とトークンリミットが最も一般的。
- 75.17% がプロンプトを完全または部分的に説明している。69.58% がプロンプトをワード・バイ・ワードで提供し、58.74% がプロンプト構築を正当化している。
- 62.24% がプロンプトエンジニアリング技法を報告している。few-shot prompting と chain-of-thought が最も一般的。
- 46.5% がプロンプト調整に言及し、44.06% が複数のプロンプト変 variations を説明し、23.43% が prompting を妥当性への脅威として議論している。
- 実証的に導出されたガイドラインは、現在の実践と査読者の期待とのギャップを明らかにし、透明性と再現性の向上の必要性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。