QUICK REVIEW

[論文レビュー] HRFormer: High-Resolution Transformer for Dense Prediction

Yuhui Yuan, Rao Fu|arXiv (Cornell University)|Oct 18, 2021

Human Pose and Action Recognition参考文献 58被引用数 126

ひとこと要約

HRFormerは高解像度のマルチスケール表現を局所窓自己注意とFFNの深さ方向畳み込みと組み合わせ、密集予測を効率化する。これにより、関連するHRNetおよびトランスフォーマーベースの基準よりも少ないパラメータとFLOPsで高精度な姿勢推定とセマンティックセグメンテーションの結果を達成する。

ABSTRACT

We present a High-Resolution Transformer (HRFormer) that learns high-resolution representations for dense prediction tasks, in contrast to the original Vision Transformer that produces low-resolution representations and has high memory and computational cost. We take advantage of the multi-resolution parallel design introduced in high-resolution convolutional networks (HRNet), along with local-window self-attention that performs self-attention over small non-overlapping image windows, for improving the memory and computation efficiency. In addition, we introduce a convolution into the FFN to exchange information across the disconnected image windows. We demonstrate the effectiveness of the High-Resolution Transformer on both human pose estimation and semantic segmentation tasks, e.g., HRFormer outperforms Swin transformer by $1.3$ AP on COCO pose estimation with $50\%$ fewer parameters and $30\%$ fewer FLOPs. Code is available at: https://github.com/HRNet/HRFormer.

研究の動機と目的

従来のViT風の低解像度出力を超える高解像度表現による密集予測を促進する。
高解像度ストリームを維持しつつ、スケール間情報交換を可能にするトランスフォーマーブロックを設計する。
局所窓自己注意と畳み込みを組み込んだFFNを用いてメモリと計算量を削減する。
HRNet風のマルチ解像度融合を統合し、高解像度と低解像度の並列ストリームを維持する。
姿勢推定、セマンティックセグメンテーション、ImageNet分類における有効性を実証する。

提案手法

HRNetに触発されたマルチ解像度並列アーキテクチャを採用し、段階を通じて高解像度表現を維持する。
非重複のKxK画像窓内で局所窓自己注意を実装し、空間サイズの二乗計算量を線形に削減してメモリと計算を抑える。
FFNに3x3の深さ方向畳み込みを導入し、非重複窓間の情報交換を可能にし、受容野を拡張する。
局所窓自己注意に相対位置埋め込みを用いて空間構造を取り込む。
HRNetの融合設計に従い、クロス解像度情報交換のための畳み込み型マルチスケール融合モジュールを利用する。
4つの解像度ストリームにわたってトランスフォーマーブロックを配置し、4段階構成、窓サイズはデフォルトで(7,7,7,7)に固定。

実験結果

リサーチクエスチョン

RQ1高解像度でマルチスケールのトランスフォーマー表現は、姿勢推定やセマンティックセグメンテーションのような密集予測タスクを改善できるか。
RQ2局所窓自己注意とFFNの深さ方向畳み込みを組み合わせると、全体のグローバル注意と比較して、メモリと計算量を抑えつつ競争力のある精度が得られるか。
RQ3HRNetに触発されたマルチ解像度融合戦略がトランスフォーマーブロックとどのように相互作用して、タスク全般の性能を向上させるか。
RQ4窓サイズやFFN構造などの設計選択が、視覚タスク全般の精度と効率に与える影響は何か。

主な発見

HRFormer-BはCOCO検証姿勢推定でHRNet-W48よりAPを0.9%向上させ、パラメータを32%、FLOPsを19%削減。
HRFormer-B + OCRは、PASCAL-ContextでHRNet-W48+OCRより1.2%のmIoU、COCO-Stuffで2.0%のmIoUを向上させ、パラメータを25%削減、FLOPsは類似。
ImageNet-1Kでは、HRFormer-BはDeiT-Bを1.0%のトップ1精度で上回り、パラメータを約40% fewer、FLOPsを約20% fewer。
HRFormer-T/S/Bは、姿勢推定とセグメンテーションタスクでHRNetの相手と競合するトランスフォーマーベースの基準を上回り、著しく低いパラメータと計算コストを実現。
除去実験では、FFNの3x3深さ方向畳み込みが、DW convなしFFNと比べてImageNet、PASCAL-Context、COCOの指標を大幅に改善。
姿勢推定でViT/DeiT/Swinベースラインと比較して、HRFormer-BはパラメータとFLOPsを抑えつつより良い結果を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。