QUICK REVIEW

[论文解读] CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation

Shuai Lu, Daya Guo|arXiv (Cornell University)|Feb 9, 2021

Software Engineering Research参考文献 98被引用 415

一句话总结

CodeXGLUE 提供一个包含 14 个数据集的 10 个任务的基准数据集，用于程序理解和生成，以及三种基线系统（CodeBERT、CodeGPT，以及一个编码器-解码器框架），以评估和比较模型。

ABSTRACT

Benchmark datasets have a significant impact on accelerating research in programming language tasks. In this paper, we introduce CodeXGLUE, a benchmark dataset to foster machine learning research for program understanding and generation. CodeXGLUE includes a collection of 10 tasks across 14 datasets and a platform for model evaluation and comparison. CodeXGLUE also features three baseline systems, including the BERT-style, GPT-style, and Encoder-Decoder models, to make it easy for researchers to use the platform. The availability of such data and baselines can help the development and validation of new methods that can be applied to various program understanding and generation problems.

研究动机与目标

建立一个多样化的基准，加速代码理解和生成领域的 ML 研究。
提供一个统一的平台，用于在多种编程任务和语言上进行评估和模型比较。
提供可直接使用的基线，降低研究人员进入代码智能研究的门槛。

提出的方法

汇集覆盖多语言的 10 个任务的 14 个数据集，其中包括新引入的填空测试、逐行代码完成、代码翻译、代码检索和文档翻译等。
提供三类基线模型：BERT 风格的编码器（CodeBERT）、GPT 风格的解码器（CodeGPT），以及用于 seq2seq 任务的编码器-解码器框架。
在 CodeXGLUE 任务上对这些基线进行预训练和微调，以建立强大的性能基线。
描述数据处理步骤，如分词、词汇选择和筛选，以确保每个任务的数据质量。
提出一个用于跨任务和语言的标准化评估与比较平台。
在已确立的数据集上进行实证研究，如 BigCloneBench、POJ-104、CodeSearchNet、CONCODE，以及 Microsoft Docs 的翻译。

实验结果

研究问题

RQ1统一的跨多样化代码理解与生成任务的基准能否推动代码领域 ML 的进展？
RQ2在广泛的代码相关任务上，标准的预训练模型的基线性能水平如何？
RQ3代码特定的预训练模型（CodeBERT、CodeGPT）在克隆检测、缺陷检测、代码完成等相关任务上，与传统基线相比有何差异？

主要发现

CodeBERT 在克隆检测上取得较强的结果，在 BigCloneBench/CodeBERT 的总体分数为 90.4，超出 RoBERTa 基线。
CodeBERT 和 CodeGPT 基线在多任务上显示出竞争力，体现了对代码的预训练、语言感知表示的优势。
缺陷检测结果显示 CodeBERT 的准确率为 62.08%，表明预训练模型相对于传统基线带来显著收益。
CTL 结果（填空测试）显示 CodeBERT 在多种语言和 CT 设置下优于 RoBERTa，凸显其强大的代码理解能力。
基准表明预训练模型提升了与代码相关的任务性能，但仍有空间进一步利用代码结构以实现更好表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。