QUICK REVIEW

[論文レビュー] Neural Code Search Evaluation Dataset

Hongyu Li, Seohyun Kim|arXiv (Cornell University)|Aug 26, 2019

Natural Language Processing Techniques参考文献 4被引用数 23

ひとこと要約

この論文は、287件のStack Overflow由来の自然言語クエリと、GitHubからの関連コードスニペット、および真値のメソッドレベルマッチを含む、ニューラルコード検索のベンチマーク評価データセットを紹介する。Answered@1、Answered@5、MRRなどの指標を用いて、NCSおよびUNIFの2つのモデルを評価し、UNIF stackoverflowが最高のMRR（0.465）を達成した。

ABSTRACT

There has been an increase of interest in code search using natural language. Assessing the performance of such code search models can be difficult without a readily available evaluation suite. In this paper, we present an evaluation dataset consisting of natural language query and code snippet pairs, with the hope that future work in this area can use this dataset as a common benchmark. We also provide the results of two code search models ([1] and [6]) from recent work. The evaluation dataset is available at https://github.com/facebookresearch/Neural-Code-Search-Evaluation-Dataset

研究の動機と目的

ニューラルコード検索モデルを評価するための標準化されたベンチマークの不足に対処すること。
実際の開発者による質問から得られる自然言語クエリと対応するコードスニペットのマッチングを含む、再現可能で公開可能なデータセットを提供すること。
一貫した評価指標を用いてコード検索モデルの系統的比較を可能にすること。
NCSおよびUNIFの2つのカスタムモデルの事前評価結果をリリースし、ベースライン性能ベンチマークとしての役割を果たすこと。
現実的で生産規模のコーパスを用いた、自然言語とコードの間の意味的マッピングを学習する分野における今後の研究を支援すること。

提案手法

24,549件の人気のあるAndroid GitHubレポジトリから検索コーパスを構築し、ファイルパス、メソッド名、行番号に基づいて470万件のメソッド本体をインデックス化した。
Upvoted済みのコード回答を含む287件のStack Overflow質問・回答ペアを収集し、関連性、明確さ、およびコーパス内でのコードスニペットのマッチング可能性を基準にフィルタリングした。
Aromaコード類似度ツールを用い、類似度の閾値を0.25として、コーパス内のメソッドがクエリを正しく回答しているかどうかを自動で検証した。
2つのモデルを構築した：NCS（コーパスからの単語埋め込みを用いた非教師あり学習）とUNIF（GitHubおよびStack Overflowデータで訓練されたアテンションベースのニューラルネットワークを用いた教師あり学習）。
NCS postrankでは、類似度スコアを用いてトップ-k結果の再ランク付けを実施し、性能向上を図った。
全287件のクエリに対して、Answered@1、Answered@5、Answered@10、および平均逆順位（MRR）を用いて性能を報告した。

実験結果

リサーチクエスチョン

RQ1標準化された、公開可能なデータセットは、ニューラルコード検索研究における再現性と比較可能性を向上させることができるか？
RQ2非教師ありおよび教師ありのニューラルコード検索モデルは、実際の開発者によるStack Overflowのクエリに対して、どの程度の性能を示すか？
RQ3ポストランク再ランク付けは、コード検索モデルのトップ-k検索性能をどの程度向上させるか？
RQ4GitHubデータのみで訓練されたモデルと、Stack Overflowの回答ペアでファインチューニングされたモデルとの間には、どの程度の性能格差が生じるか？
RQ5自動コード類似度メトリクス（例：Aroma）は、コード検索の正しさを評価する際、人間の判断とどの程度相関しているか？

主な発見

UNIF stackoverflowモデルが、最高の平均逆順位（MRR）0.465を達成し、他のすべてのモデルを上回った。
NCS postrankモデルは、ベースラインのNCSモデルを上回り、Answered@1が33から85に、MRRが0.189から0.400に向上した。
UNIF stackoverflowはトップ1件内での正解回答を104件達成し、NCS（33件）およびUNIF android（25件）を大きく上回った。
NCSモデルは最低のパフォーマンスを示し、トップ1件内での正解は33件にとどまり、MRRは0.189であった。
UNIF stackoverflowはトップ10件内での正解回答を188件達成し、全モデルの中で最多であった。
Aroma類似度の閾値0.25は、正しいコードマッチの自動特定に有効であり、スケーラブルで再現可能な評価を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。