Skip to main content
QUICK REVIEW

[论文解读] Source Code Hotspots: A Diagnostic Method for Quality Issues

Saleha Muzammil, Mughees Ur Rehman|arXiv (Cornell University)|Feb 13, 2026
Software Engineering Research被引用 0
一句话总结

论文从91个演化中的GitHub仓库中提取逐行热点评估,以诊断可维护性问题,识别出15种热点评型并映射到重构指南,同时显示机器人驱动了大量热点评改动(74%)。

ABSTRACT

Software source code often harbours "hotspots": small portions of the code that change far more often than the rest of the project and thus concentrate maintenance activity. We mine the complete version histories of 91 evolving, actively developed GitHub repositories and identify 15 recurring line-level hotspot patterns that explain why these hotspots emerge. The three most prevalent patterns are Pinned Version Bump (26%), revealing brittle release practices; Long Line Change (17%), signalling deficient layout; and Formatting Ping-Pong (9%), indicating missing or inconsistent style automation. Surprisingly, automated accounts generate 74% of all hotspot edits, suggesting that bot activity is a dominant but largely avoidable source of noise in change histories. By mapping each pattern to concrete refactoring guidelines and continuous integration checks, our taxonomy equips practitioners with actionable steps to curb hotspots and systematically improve software quality in terms of configurability, stability, and changeability.

研究动机与目标

  • 识别逐行代码变更热点作为可维护性问题的诊断(可配置性、稳定性、可变更性)。
  • 表征真实世界代码库中热点模式的普遍性和特征。
  • 将热点模式映射到具体的重构指南和CI检查,以降低维护成本。

提出的方法

  • 使用按星级和分叉进行分层抽样,挖掘91个GitHub仓库的完整修订历史。
  • 使用跟踪逐行变更的算法跟踪热点文件中的逐行变更,并在编辑中沿线跟踪。
  • 开发手动标注流程以建立热点分类法,并使用Chao1评估标注饱和度。
  • 通过分析提交者身份检测机器人并标注自动账户。
  • 量化热点改动中归因于机器人的份额,并将模式映射到缓解措施。

实验结果

研究问题

  • RQ1RQ1: 哪些技术或过程因素产生热点,哪些实践可以减少复发?
  • RQ2RQ2: 热点在项目中的范围、持续性和位置有何差异?
  • RQ3RQ3: 机器人作者提交如何影响热点,哪些反模式是由机器人驱动的?

主要发现

  • 在数据集中识别出15种重复的逐行热点类型。
  • 三种最普遍的热点模式为:Pinned Version Bump (26%)、Long Line Change (17%)、Formatting Ping-Pong (9%)。
  • automated accounts account for 74% of hotspot edits across the studied repositories.
  • 本研究分析了91个具有多样语言和活跃度的仓库,建立了将热点模式与具体缓解措施相关联的分类法。
  • 逐行分析使将变更归因于人为还是机器人作者成为可能,并支持有针对性的可维护性改进。
  • 该分类法为在软件项目中改进可配置性、稳定性和可变更性提供可操作的步骤。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。