[論文レビュー] ChatGPT vs SBST: A Comparative Assessment of Unit Test Suite Generation
論文は ChatGPT と EvoSuite(SBST)によって生成されたユニットテストスイートを正確性、可読性、コードカバレッジ、バグ検出の観点で比較し、テストの多様性と現実性の点で ChatGPT の強みを示す一方、コンパイルおよびカバレッジのギャップを指摘します。
Recent advancements in large language models (LLMs) have demonstrated exceptional success in a wide range of general domain tasks, such as question answering and following instructions. Moreover, LLMs have shown potential in various software engineering applications. In this study, we present a systematic comparison of test suites generated by the ChatGPT LLM and the state-of-the-art SBST tool EvoSuite. Our comparison is based on several critical factors, including correctness, readability, code coverage, and bug detection capability. By highlighting the strengths and weaknesses of LLMs (specifically ChatGPT) in generating unit test cases compared to EvoSuite, this work provides valuable insights into the performance of LLMs in solving software engineering problems. Overall, our findings underscore the potential of LLMs in software engineering and pave the way for further research in this area.
研究の動機と目的
- ChatGPT が Java メソッドの正しいユニットテストを生成できるかを評価する。
- ChatGPT が生成したテストの可読性と保守性を評価する。
- ChatGPT 生成テストのコードカバレッジを EvoSuite(SBST)と比較する。
- 静的解析を用いて ChatGPT 生成テストのバグ検出能力を測定する。
提案手法
- Java ユニットテスト生成における SBST の基準として EvoSuite を使用する。
- 標準化されたプロンプトを用いてコード断片を ChatGPT に提示し JUnit テストを生成させる。
- テストをコンパイル・実行し、SpotBugs でバグを分析して正確性を評価する。
- コードスタイルチェック(Checkstyle)と複雑度指標(循環的複雑度と認知的複雑度)で可読性を測定する。
- JaCoCo の命令/文カバレッジを用いてコードカバレッジを評価し、対象ごとの平均を比較する。

実験結果
リサーチクエスチョン
- RQ1RQ1 正確性: ChatGPT のユニットテストスイート提案は正しいか。
- RQ2RQ2 可読性: ChatGPT 生成テストスイートはどれくらい理解しやすいか。
- RQ3RQ3 コードカバレッジ: SBST と比較した場合、ChatGPT のカバレッジはどうか。
- RQ4RQ4 バグ検出: ChatGPT と SBST はバグ検出テスト生成にどれだけ有効か。
主な発見
- 長入力制約を適用した後、75プロジェクトから207の Java クラスを分析。
- ChatGPT 生成テストのうち人の介入なしでコンパイル・実行される割合は 69.6% 。
- SpotBugs は 204 のテストケースにわたって潜在的なバグを検出(元の 3 ケースはコンパイルに失敗)。
- ChatGPT 生成テストケースのうち 61.2% がバグなし。9.8% には最も深刻/深刻な優先度のバグが含まれていた。
- Evosuite は ChatGPT よりも平均文カバレッジが高く(74.2% vs 55.4%)、207 クラス中 37 クラス、75 プロジェクト中 10 プロジェクトで ChatGPT が EvoSuite を上回った。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。