[論文レビュー] Traceability in the Wild: Automatically Augmenting Incomplete Trace Links
本論文は、プロセス、テキスト、ステークホルダー関連の特徴を分析することで、ソフトウェアプロジェクトにおけるコミットとイシュー間の欠落したトレースリンクを自動で回復する機械学習的手法を提案する。コミットメッセージ、イシュー記述、メタデータから導出された18の特徴量を用いてトレーニングされたランダムフォレスト分類器により、未リンクのコミットに対するイシュータグの推薦で96%のリCALLを達成し、6つのオープンソースプロジェクトにおいて既存の不完全なトレースリンクの拡張において89%以上の精度を達成した。
Software and systems traceability is widely accepted as an essential element for supporting many software development tasks. Today's version control systems provide inbuilt features that allow developers to tag each commit with one or more issue ID, thereby providing the building blocks from which project-wide traceability can be established between feature requests, bug fixes, commits, source code, and specific developers. However, our analysis of six open source projects showed that on average only 60% of the commits were linked to specific issues. Without these fundamental links the entire set of project-wide links will be incomplete, and therefore not trustworthy. In this paper we address the fundamental problem of missing links between commits and issues. Our approach leverages a combination of process and text-related features characterizing issues and code changes to train a classifier to identify missing issue tags in commit messages, thereby generating the missing links. We conducted a series of experiments to evaluate our approach against six open source projects and showed that it was able to effectively recommend links for tagging issues at an average of 96% recall and 33% precision. In a related task for augmenting a set of existing trace links, the classifier returned precision at levels greater than 89% in all projects and recall of 50%
研究の動機と目的
- 実際には60%程度のコミットしかイシューにリンクされていないという、ソフトウェア開発における不完全なトレーサビリティという重要な問題に対処すること。
- 開発者が提案を受容または拒否できるように、コミット時における欠落したイシュータグの自動推奨を実用的かつ自動化されたソリューションとして開発すること。
- コミットとイシュー間の欠落リンクを回復することで、変更影響分析、欠陥防止、開発者推薦システムの支援を向上させる、プロジェクト全体のトレーサビリティを強化すること。
- 既存の開発ワークフローに単一の「ボタン押下」で導入可能な分類器を設計することで、産業応用可能性を確保すること。
提案手法
- 本手法は、コミットメッセージ、イシュー記述、メタデータから18の特徴量を抽出する。テキスト類似度(VSMベースの手法を用いて)、時間的近接性、ステークホルダー参加、および「ロンヤーズ」と「ファントムズ」のヒューリスティクスを含む構造的パターンが含まれる。
- コミットメッセージとイシュー記述間のテキスト類似度は、LSIなどの遅延が大きい手法を避けるために、自然言語の概念を統合したVSM(ベクトル空間モデル)を用いて計算する。
- プロセス関連の特徴量として、コミットメッセージに「fixes」や「closes」キーワードが含まれるか、イシュー解決時刻とコミットタイムスタンプの時間的整合性を組み込む。
- これらの特徴量を用いてトレーニングされたランダムフォレスト分類器は、明示的なタグが存在しない場合でも、特定のイシューにリンクされるべきかを予測する。
- 分類器は2つのモードで評価される:新規コミットに対するリンクの推薦、および既存の不完全なリンク集合の拡張。
- 既存の開発ワークフローへのシームレスな統合を設計しており、推薦をトリガーするには単一の操作のみを要する。
実験結果
リサーチクエスチョン
- RQ1RQ1: コミットプロセス中に、欠落したイシュータグを正確に再構築できるか、すなわち未リンクのコミットに対して関連するイシューを推薦できるか?
- RQ2RQ2: 既存の不完全なコミット-イシューリンク集合を完全に自動化された方法で正確に拡張できるか?
- RQ3RQ3: これまでにリンクのないコミットに対して、追加のイシュータグを推薦できるか?
主な発見
- 未リンクのコミットに対して最大3つのイシュータグを推薦する際、平均リCALLは96%に達し、欠落リンクの高いカバレッジを示した。
- 既存の不完全なトレースリンクを拡張するタスクにおいて、6つの研究対象プロジェクトすべてで精度が89%以上に達し、リンク回復の高い信頼性を示した。
- 以前にリンクのないコミットからのリンク同定タスクにおいて、平均リCALLは91.6%、精度は17.3%を達成し、ゼロの事前リンクという課題にもかかわらず有効性を示した。
- 推薦および拡張タスクの両方において、ランダムフォレスト分類器が他のモデルを上回り、本問題に対して最適な選択肢であることが立証された。
- 「ロンヤーズ」と「ファントムズ」のような構造的ヒューリスティクスの組み込みにより、リンク予測の精度が向上し、それらが暗黙のトレーサビリティを同定する上で関連性があることが裏付けられた。
- 本手法は多様なオープンソースプロジェクトにおいても頑健であることが示され、GitとJira/Bugzillaを用いた他の開発環境への一般化可能性を示唆した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。