[论文解读] Reinforced active learning for image segmentation
本文提出了一种基于深度强化学习的主动学习方法,用于语义图像分割,该方法选择信息量丰富的图像区域进行标注,而非整幅图像。通过修改DQN框架以优先选择不确定性高的区域和低频类别,该方法相比基线方法将所需标注数据减少了约30%,同时在Cityscapes数据集上提升了罕见类别的性能。
Learning-based approaches for semantic segmentation have two inherent challenges. First, acquiring pixel-wise labels is expensive and time-consuming. Second, realistic segmentation datasets are highly unbalanced: some categories are much more abundant than others, biasing the performance to the most represented ones. In this paper, we are interested in focusing human labelling effort on a small subset of a larger pool of data, minimizing this effort while maximizing performance of a segmentation model on a hold-out set. We present a new active learning strategy for semantic segmentation based on deep reinforcement learning (RL). An agent learns a policy to select a subset of small informative image regions -- opposed to entire images -- to be labeled, from a pool of unlabeled data. The region selection decision is made based on predictions and uncertainties of the segmentation model being trained. Our method proposes a new modification of the deep Q-network (DQN) formulation for active learning, adapting it to the large-scale nature of semantic segmentation problems. We test the proof of concept in CamVid and provide results in the large-scale dataset Cityscapes. On Cityscapes, our deep RL region-based DQN approach requires roughly 30% less additional labeled data than our most competitive baseline to reach the same performance. Moreover, we find that our method asks for more labels of under-represented categories compared to the baselines, improving their performance and helping to mitigate class imbalance.
研究动机与目标
- 解决语义分割中像素级标注所需高昂成本和时间的问题。
- 通过聚焦于低频类别标注,缓解分割数据集中的类别不平衡问题。
- 开发一种高效的主动学习策略,选择小而信息量丰富的图像区域,而非整幅图像。
- 直接优化平均交并比(mIoU),在最小化标注数据量的前提下提升模型性能。
- 设计一种基于改进DQN的批量主动学习方法,以适应大规模分割任务。
提出的方法
- 将主动学习建模为马尔可夫决策过程,其中智能体根据模型预测和不确定性选择图像区域进行标注。
- 修改深度Q网络(DQN)架构以处理大规模分割任务,采用类别感知的状态和动作表示。
- 将状态定义为从分割模型预测中提取的图像区域特征嵌入,以捕捉不确定性和类别分布。
- 设计基于验证集上mIoU提升的奖励函数,直接优化分割性能。
- 实施批量学习策略,使智能体每步选择多个区域,提高样本效率并减少训练步数。
- 使用优先经验回放和目标网络以稳定训练,将标准DQN组件适配至基于区域的主动学习设置。
实验结果
研究问题
- RQ1深度强化学习智能体能否有效学习选择语义分割中最具信息量的图像区域进行标注?
- RQ2与整幅图像标注的基线方法相比,基于区域的主动学习方法是否能减少达到目标mIoU所需的标注像素数量?
- RQ3基于强化学习的方法能否自动优先处理低频类别,从而在数据收集过程中缓解类别不平衡问题?
- RQ4所提出方法在不同预算规模和数据集上的性能表现如何,特别是在Cityscapes等大规模设置下?
- RQ5基于批量DQN的主动学习策略能否在减少每轮标注迭代的网络更新次数的同时,保持高效率和高性能?
主要发现
- 在Cityscapes数据集上,所提方法仅使用全部像素的6%(20,000个区域)进行标注,即达到64.5%的mIoU,性能达到全量标签训练模型的96%。
- 为达到相同的mIoU性能,次优基线方法(H)需要多30%的标注数据——相当于额外45张图像,证明了显著的数据效率优势。
- 该方法在低频类别(如'person'、'bicycle'和'motorcycle')上的性能得到提升,mIoU达63.32%,优于H基线的62.29%。
- 所选区域的类别分布熵更高(更接近均匀分布),表明在各类别间,尤其是罕见类别上,标注更具平衡性。
- 在CamVid和Cityscapes数据集上,该方法在所有预算水平下均优于所有基线,mIoU提升具有统计显著性,尤其在低数据预算下表现更优。
- 与整幅图像标注相比,标注小区域能带来更好性能和更低方差,如附录E.2的消融实验所示,原因在于更精细的不确定性估计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。