QUICK REVIEW

[论文解读] Robustness, Security, Privacy, Explainability, Efficiency, and Usability of Large Language Models for Code

Zhou Yang, Zhensu Sun|arXiv (Cornell University)|Mar 12, 2024

Software Engineering Research被引用 6

一句话总结

对146项研究的系统性文献回顾，识别出除了准确性之外的七个非功能属性用于代码中的LLMs，并包含最前沿趋势与差距。

ABSTRACT

Large language models for code (LLM4Code), which demonstrate strong performance (e.g., high accuracy) in processing source code, have significantly transformed software engineering. Many studies separately investigate the non-functional properties of LM4Code, but there is no systematic review of how these properties are evaluated and enhanced. This paper fills this gap by thoroughly examining 146 relevant studies, thereby presenting the first systematic literature review to identify seven important properties beyond accuracy, including robustness, security, privacy, explainability, efficiency, and usability. We discuss the current state-of-the-art methods and trends, identify gaps in existing research, and present promising directions for future study.

研究动机与目标

识别 LLM4Code 的七个除准确性之外的非功能属性（鲁棒性、安全性、隐私、可解释性、效率和可用性）。
评估当前研究中这些属性的定义、评估与改进方式。
总结每个属性的前沿技术、数据集和衡量标准。
突出差距、挑战和机会，以指导未来在 LLM4Code 领域的研究。
在相关情况下比较 LLM4Code 与非 LLM4Code 研究的关注点。

提出的方法

对146篇论文（2019–2024）进行系统性文献回顾，聚焦于 LLM4Code 的除准确性以外的非功能属性。
两阶段论文识别：在 DBLP 中进行关键词查询，随后通过 Semantic Scholar 进行向后/向前滚雪球检索；共八轮滚雪球以达到传递闭包。
对七个属性进行定义，并综合每个属性的当前评估/改进技术。
对鲁棒性测试方法（白盒/黑盒）和测试输入生成方法（基于梯度、启发式驱动、基于搜索、强化学习、风格/可迁移性）进行分类。
以代表性研究为依据支撑讨论，并展示趋势与差距（论文中的表1 引用）。

实验结果

研究问题

RQ1在 LLM4Code 中研究的除准确性之外的非功能属性有哪些？
RQ2文献中如何评估和改进鲁棒性、安全性、隐私、可解释性、效率和可用性？
RQ3这些属性在 LLM4Code 中的主要差距和未来方向是什么？
RQ4哪些有效性威胁影响 LLM4Code 非功能属性的研究？

主要发现

在 LLM4Code 论文中，鲁棒性是研究最多的属性（占比最大）。
LLM4Code 的安全与隐私关注点包括数据污染、后门和敏感信息泄露；还讨论了成员资格推断与数据集所有权问题。
可解释性在不同技术和任务中表现出不一致性，存在满足最终用户需求的差距。
效率趋势包括参数高效微调和模型压缩，对其他属性的影响不一。
可用性发现不一，生产力效应各异，现实情境中的实际可用性干预有限。
文献显示在评估和提升这些高于准确性的非功能属性方面存在广泛的研究机会与挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。