QUICK REVIEW

[論文レビュー] Deep High-Resolution Representation Learning for Visual Recognition

Jingdong Wang, Ke Sun|arXiv (Cornell University)|Aug 20, 2019

Advanced Neural Network Applications参考文献 186被引用数 351

ひとこと要約

High-Resolution Network (HRNet) は、マルチ解像度ストリームを並列に接続し、解像度間で情報を繰り返し交換することにより、すべての段階で高解像度の表現を維持し、姿勢推定、セマンティックセグメンテーション、物体検出の分野で強力な結果を達成します。

ABSTRACT

High-resolution representations are essential for position-sensitive vision problems, such as human pose estimation, semantic segmentation, and object detection. Existing state-of-the-art frameworks first encode the input image as a low-resolution representation through a subnetwork that is formed by connecting high-to-low resolution convolutions \emph{in series} (e.g., ResNet, VGGNet), and then recover the high-resolution representation from the encoded low-resolution representation. Instead, our proposed network, named as High-Resolution Network (HRNet), maintains high-resolution representations through the whole process. There are two key characteristics: (i) Connect the high-to-low resolution convolution streams \emph{in parallel}; (ii) Repeatedly exchange the information across resolutions. The benefit is that the resulting representation is semantically richer and spatially more precise. We show the superiority of the proposed HRNet in a wide range of applications, including human pose estimation, semantic segmentation, and object detection, suggesting that the HRNet is a stronger backbone for computer vision problems. All the codes are available at~{\url{https://github.com/HRNet}}.

研究の動機と目的

高い空間的詳細が重要となる、ポジション感度のある視覚表現の必要性を動機づける。
処理全体を通じて高解像度の表現を回復するのではなく、低解像度特徴からの復元を避けて維持するネットワークアーキテクチャを提案する。
並列のマルチ解像度ストリームと連続的なクロス解像度融合により、意味的に豊かで空間的に精密な表現が得られることを示す。
姿勢推定、セマンティックセグメンテーション、物体検出など、複数の視覚タスクにおいて HRNet の優位性を示す。

提案手法

高解像度の幹部から初期化し、並行して高〜低解像度ストリームを追加していく。
四つの並列解像度ストリームを維持し、繰り返しのマルチ解像度融合を行って解像度間で情報を交換する。
HRNetV1、HRNetV2、HRNetV2+p の3つの表現ヘッドを定義し、高解像度または複数解像度が融合された表現を出力する。
増大する深さとチャネル幅を持つマルチ解像度ブランチを含む四段階の HRNet を構築し、残差ユニットとバッチ正規化を用いる。
解像度間でダウンサンプリングまたはアップサンプリングを行い、整合性のあるマルチ解像度表現を生み出す融合変換を確立する。

実験結果

リサーチクエスチョン

RQ1ネットワーク全体で高解像度表現を維持することで、ポジション感度のある視覚タスクの性能は改善されるのか。
RQ2並列のマルチ解像度ストリームと繰り返しのクロス解像度融合は、従来のダウンサンプリング後の復元バックボーンと比べて視覚タスクの性能にどのような影響を与えるのか。
RQ3V1、V2、V2+p の異なる HRNet ヘッド設計が、姿勢推定、セグメンテーション、検出の性能にどのような影響を与えるのか。
RQ4HRNet ベースのバックボーンは、同等のモデルサイズと計算量でセマンティックセグメンテーションと物体検出の最先端結果を提供できるのか。

主な発見

HRNet は COCO で高解像度バックボーンを用いて強力な姿勢推定性能を発揮し、従来法を上回りつつ計算コストは低いまたは同等である。
HRNetV2 および HRNetV2+p は、Cityscapes、PASCAL-Context、LIP などのセマンティックセグメンテーションのベンチマークで、類似のモデルサイズかつ計算量が少なく最先端の結果をもたらす。
4解像度の並列設計と繰り返しの融合は、高次および中間レベルの表現を強化し、位置特定とセグメンテーション品質を向上させる。
HRNet ベースの検出器（HRNetV2p）は、標準的な検出フレームワーク（例：Faster R-CNN、Cascade R-CNN、FCOS、CenterNet）に組み込むことで検出性能を向上させ、特に小さな物体に対して顕著である。
本論文は、低解像度バックボーンから高解像度表現を復元する従来のアーキテクチャを複数のデータセットとタスクで凌駕することを示す、包括的な比較を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。