Skip to main content
QUICK REVIEW

[论文解读] RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation

Jindong Jiang, Lunan Zheng|arXiv (Cornell University)|Jun 4, 2018
Remote Sensing and LiDAR Applications参考文献 37被引用 181
一句话总结

RedNet 引入了具有 RGB-D 融合和金字塔监督的残差编码器-解码器,用于室内语义分割,在 SUN RGB-D 上以 ResNet-50 骨干达到 47.8% 的 mIoU。

ABSTRACT

Indoor semantic segmentation has always been a difficult task in computer vision. In this paper, we propose an RGB-D residual encoder-decoder architecture, named RedNet, for indoor RGB-D semantic segmentation. In RedNet, the residual module is applied to both the encoder and decoder as the basic building block, and the skip-connection is used to bypass the spatial feature between the encoder and decoder. In order to incorporate the depth information of the scene, a fusion structure is constructed, which makes inference on RGB image and depth image separately, and fuses their features over several layers. In order to efficiently optimize the network's parameters, we propose a `pyramid supervision' training scheme, which applies supervised learning over different layers in the decoder, to cope with the problem of gradients vanishing. Experiment results show that the proposed RedNet(ResNet-50) achieves a state-of-the-art mIoU accuracy of 47.8% on the SUN RGB-D benchmark dataset.

研究动机与目标

  • 通过深度编码-解码器架构改进室内 RGB-D 语义分割。
  • 通过双分支 RGB-D 融合策略引入深度信息。
  • 通过跨解码器层的金字塔监督缓解梯度消失。
  • 在编码器和解码器中均使用残差块以实现更深网络。
  • 在 SUN RGB-D 上评估 RedNet 以基准化性能。

提出的方法

  • 使用带残差块的双分支 RGB 与 Depth 编码器(ResNet-50 或 ResNet-34)。
  • 在多个层次通过逐元素求和将深度特征融入 RGB 支路。
  • 在解码器实现上采样残差单元以恢复完整分辨率。
  • 通过来自多个解码器层的侧输出及相应损失实现金字塔监督。
  • 以加权交叉熵训练,使用中位数频率平衡和 ImageNet 预训练编码器。
  • 在使用 ResNet-50 时可选使用代理层以降低内存占用。

实验结果

研究问题

  • RQ1带 RGB-D 融合的残差编码器-解码器能否超越现有的室内 RGB-D 分割模型?
  • RQ2在多个编码器层进行深度融合是否提升分割精度?
  • RQ3金字塔监督是否改善优化和最终性能?

主要发现

  • 在使用 ResNet-50 且具有金字塔监督时,RedNet-34 实现 46.8 mIoU、81.3 像素精度和 60.3 平均精度在 SUN RGB-D。
  • 在具有金字塔监督的情况下,RedNet-50 实现 47.8 mIoU、81.3 像素精度和 60.3 平均精度在 SUN RGB-D。
  • 在没有金字塔监督的情况下,RedNet-34 达到 45.0 mIoU,RedNet-50 达到 46.0 mIoU。
  • 配合金字塔监督的 RedNet-50 相较于非金字塔版本提升约 1.8 mIoU(47.8 对 46.0)。
  • 总体而言,RedNet 的变体在 SUN RGB-D 上优于若干早期的 RGB-D 语义分割方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。