Skip to main content
QUICK REVIEW

[論文レビュー] Dilated Residual Networks

Fisher Yu, Vladlen Koltun|arXiv (Cornell University)|May 28, 2017
Cell Image Analysis Techniques参考文献 16被引用数 174
ひとこと要約

DRNsは拡張畳み込みを用いて畳み込みニューラルネットワークの高い空間解像度を保持し、深さを増やさずにImageNet分類を改善し、局在化とセマンティックセグメンテーションを強化する。

ABSTRACT

Convolutional networks for image classification progressively reduce resolution until the image is represented by tiny feature maps in which the spatial structure of the scene is no longer discernible. Such loss of spatial acuity can limit image classification accuracy and complicate the transfer of the model to downstream applications that require detailed scene understanding. These problems can be alleviated by dilation, which increases the resolution of output feature maps without reducing the receptive field of individual neurons. We show that dilated residual networks (DRNs) outperform their non-dilated counterparts in image classification without increasing the model's depth or complexity. We then study gridding artifacts introduced by dilation, develop an approach to removing these artifacts (`degridding'), and show that this further increases the performance of DRNs. In addition, we show that the accuracy advantage of DRNs is further magnified in downstream applications such as object localization and semantic segmentation.

研究の動機と目的

  • 自然画像と下流タスクのためにCNNにおける空間解像度の保持を動機づける。
  • 解像度を維持するためにストライドを膨張に置換してDilated Residual Network (DRN)を提案する。
  • 膨張に起因するグリディング(エイリアシング)アーチファクトを調査し、性能向上のためのdegriddingを導入する。
  • ImageNet分類、弱教師あり局在化、CityscapesのセマンティックセグメンテーションにおけるDRNの改善を示す。

提案手法

  • ResNetブロックのうち最後の2グループでストライド-2のサブサンプリングを2-dilated畳み込みに置換し、解像度を保持する。
  • G4_1とG5_1でストライドを削除し、ネットワーク出力の特徴マップ解像度を28×28に引き上げる。
  • 後半の層に拡張係数(2および4)を適用して受容野を維持しつつ出力解像度を高める。
  • グリディングアーチファクトを抑制するため、最大プーリングを置換し、段階的に拡張された層を追加し、一部の残差接続を削除してdegridding方式(DRN-C)を導入する。
  • 必要に応じて分類にグローバル平均プーリングを1×1畳み込みに置換して使用し、再訓練なしで局在化の高解像度活性マップを有効にする。
  • 分類ネットワークをピクセルレベルのマップを出力するように変換することで、DRNが弱教師あり局在化に直接使用できることを示す。
(b) DRN
(b) DRN

実験結果

リサーチクエスチョン

  • RQ1膨張によって中間出力解像度を高くすると、ネットワークの深さを増やさずにImageNet分類が改善されるか?
  • RQ2膨張に伴うグリディングアーチファクトは精度にどのように影響し、効果的に緩和(degridding)できるか?
  • RQ3DRNは標準のResNetと比較して、弱教師あり局在化やセマンティックセグメンテーションなどの下流タスクの性能を向上させるか?
  • RQ4分類で訓練されたDRNは追加の調整や訓練なしに高解像度の局在化を提供できるか?

主な発見

モデル1 crop top-11 crop top-510 crops top-110 crops top-5P(パラメータ)
ResNet-1830.4310.7628.229.4211.7M
DRN-A-1828.009.5025.758.2511.7M
DRN-B-2625.197.9123.336.6921.1M
DRN-C-2624.867.5522.936.3921.1M
ResNet-3427.738.7424.767.3521.8M
DRN-A-3424.817.5422.646.3421.8M
DRN-C-4222.946.5721.205.6031.2M
ResNet-5024.017.0222.246.0825.6M
DRN-A-5022.946.5721.345.7425.6M
ResNet-10122.446.2121.085.3544.5M
DRN-A-50 (dup)22.946.5721.345.7425.6M
  • DRN-Aモデルは、同じ深さと容量のResNetと比較して、1-cropおよび10-crop ImageNet top-1/top-5精度で上回る。
  • Degridding(DRN-C)はさらに性能を向上させ、DRN-C-26はより深いDRN-A-34の精度に、DRN-C-42はDRN-A-50の精度に匹敵する。
  • DRN-C-26は深さが低いにもかかわらず、いくつかの設定でResNet-101を上回る。
  • DRNsは微調整なしで弱教師あり局在化に適した高解像度の活性マップを提供し、局在化タスクでResNetsを上回る。
  • Cityscapesのセマンティックセグメンテーションでは、DRN-C-26とDRN-C-42が深さが低いにもかかわらずResNet-101ベースラインを上回り、グリディングの欠陥が除去されている。
  • DRNの出力には有益な空間的詳細が含まれており、後処理のアップサンプリングモジュールなしで密な予測を可能にする。
(a) Classification output
(a) Classification output

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。