QUICK REVIEW

[論文レビュー] Large Language Models for Software Engineering: Survey and Open Problems

Angela Fan, Beliz Gokkaya|arXiv (Cornell University)|Oct 5, 2023

Software Engineering Research被引用数 31

ひとこと要約

大規模言語モデル(LLMs)がソフトウェア工学にどのように適用されるかの調査。機会、未解決の問題、および信頼性と評価を保証するためのハイブリッドなSE–LLMアプローチの必要性を概説。

ABSTRACT

This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.

研究の動機と目的

コード作成、要件、設計、修復、リファクタリング、性能、文書化、分析を横断するソフトウェア工学におけるLLMsの新興利用を調査する。
幻覚やオラクル問題などの主要な課題と、信頼性のあるLLMベースのSEにおける自動テストとregression oaclesの役割を特定する。
信頼性の高いデプロイメントのために、従来のSE手法とLLMsを組み合わせたハイブリッドアーキテクチャの価値を強調する。
LLMベースのSEにおける堅牢な科学的評価のために必要なプロンプト設計、説明、および評価方法論について論じる。

提案手法

複数のSE活動にわたるLLMsのソフトウェア工学への適用に関する既存文献をレビューし、統合する。
LLMのカテゴリ（エンコーダのみ、エンコーダ-デコーダ、デコーダのみ）とコード生成モデルを、例とパラメータとともに分類する。
LLMsを通じた要件工学、設計、コード生成における未解決問題と機会について論じる。
LLMsベースのSEソリューションをより信頼性の高いものにする道として、プロンプトエンジニアリング、出力の説明、およびハイブリッドアプローチを検討する。
LLMベースのコード生成の正確性、堅牢性、決定論性、セキュリティを含む経験的評価の問題に対処する。

Figure 1: A mapping between software development activities, research domains, and the paper structure

実験結果

リサーチクエスチョン

RQ1LLMsが適用されている主なソフトウェア工学のタスクは何で、それらの有効性の証拠は何か？
RQ2幻覚、評価、オラクルの課題を含む、SEへのLLMsの適用における主要な未解決問題と研究のギャップは何か？
RQ3SEタスクの信頼性、安全性、性能を向上させるために、ハイブリッドなSE–LLMアプローチはどのように設計できるか？
RQ4LLMベースのSEの成果を改善するうえで、プロンプトエンジニアリングと説明生成の役割は何か？
RQ5実行間の非決定性と変動性を考慮して、LLMベースのSEの科学的評価はどのように実施すべきか？

主な発見

LLMsはコーディングから文書化と分析に至る広範なSE適用を可能にするが、出現的特性が信頼性の課題をもたらす。
自動回帰オラクルと従来のテスト技術は、LLM生成のSEアーティファクトを検証するうえで中心であり、プロンプトエンジニアリングと説明は活発な研究領域である。
コード生成と補完は急速な進展を示しており、ハイブリッドアプローチ（計画、API検索、テスト生成、評価ランキング）が結果を改善する。
LLMベースのコード生成の経験的評価は正確性、堅牢性、決定論性、セキュリティに関する懸念を浮き彫りにしており、SBSEおよび経験的SEの成熟した評価手法を必要とする。
幻覚を抑制し安全なデプロイメントを確保するためのハイブリッドシステムと人間-in loopアプローチの価値を裏付ける証拠が増えている。

Figure 2: Trends in number of arXiv preprints. The blue line denotes the number of preprints categorised under “CS”. The orange line denotes the number of preprints in AI (cs.AI), Machine Learning (cs.LG), Neural and Evolutionary Computing (cs.NE), Software Engineering (cs.SE), and Programming Langu

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。