[論文レビュー] Towards an Understanding of Large Language Models in Software Engineering Tasks
この論文は、LLMsがソフトウェア工学にどのように適用されるかを体系的に初めてまとめたレビューで、7つのタスクタイプを分類し、LLMsがどこでうまく機能するかを評価します。六つのデータベースから分析した123件の研究を用いて、トレンドと有効性を整理します。
Large Language Models (LLMs) have drawn widespread attention and research due to their astounding performance in text generation and reasoning tasks. Derivative products, like ChatGPT, have been extensively deployed and highly sought after. Meanwhile, the evaluation and optimization of LLMs in software engineering tasks, such as code generation, have become a research focus. However, there is still a lack of systematic research on applying and evaluating LLMs in software engineering. Therefore, this paper comprehensively investigate and collate the research and products combining LLMs with software engineering, aiming to answer two questions: (1) What are the current integrations of LLMs with software engineering? (2) Can LLMs effectively handle software engineering tasks? To find the answers, we have collected related literature as extensively as possible from seven mainstream databases and selected 123 timely papers published starting from 2022 for analysis. We have categorized these papers in detail and reviewed the current research status of LLMs from the perspective of seven major software engineering tasks, hoping this will help researchers better grasp the research trends and address the issues when applying LLMs. Meanwhile, we have also organized and presented papers with evaluation content to reveal the performance and effectiveness of LLMs in various software engineering tasks, guiding researchers and developers to optimize.
研究の動機と目的
- LLMsをソフトウェア工学のタスクへ統合する現状を俯瞰する。
- 既存の研究を7つのソフトウェア工学タスクタイプに分類する。
- LLMsがソフトウェア工学のタスクの性能を向上させるかどうか、またその理由を評価する。
- LLMsをソフトウェア工学へ適用する際の課題に対処するための研究者へのガイダンスを提供する。
提案手法
- 六つのデータベースを横断する文献検索:ACM DL、IEEE Xplore、dblp、Elsevier Science Direct、Google Scholar、arXiv。
- 関連論文と非関連論文を識別するためのカードソーティング(クローズド)を実施。
- 非英語論文、学位論文、基調講演論文、非LLM、非ソフトウェア工学、重複、2022年以前の研究の除外。
- アプリケーションと性能に関する2つの研究質問に答えるため、論文を読んでデータ分析を行う。
実験結果
リサーチクエスチョン
- RQ1RQ1:現在、LLMsとソフトウェア工学の組み合わせに焦点を当てた研究はどのようなものがあるか。
- RQ2RQ2:LLMsは本当に現在のソフトウェア工学のタスクをより良く実行するのに役立つのか。
主な発見
- LLMsはコード要約や修復などの構文関連タスクに強みを示す。
- LLMsはコード生成や脆弱性検出のような意味論寄りのタスクには満足度が低いが、モデルの反復によって進展が続いている。
- 合計で123件の関連論文が特定され、7つのソフトウェア工学タスクに分類された。
- コード生成が最も研究されたカテゴリで(24件)、コード翻訳が最も少ない(3件)。
- 本稿は、現在の状況、適用例、および評価内容の構造化された視点を提供し、最適化を導く。
- スケーリングからの新出現的能力(例:in-context learning、指示に従う能力)が、SEタスクにおけるLLMの性能に寄与する要因として議論されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。