QUICK REVIEW

[論文レビュー] Numerical Coordinate Regression with Convolutional Neural Networks

Aiden Nibali, Zhen He|arXiv (Cornell University)|Jan 23, 2018

Human Pose and Action Recognition参考文献 17被引用数 186

ひとこと要約

私たちは、追加パラメータなしでヒートマップを座標へ変換する微分可能な空間-数値変換（DSNT）を導入します。これにより、座標回帰（例: 姿勢推定）のエンドツーエンドの訓練と推論速度が向上し、DSNTはヒートマップマッチングや全結合アプローチをしばしば上回ります。

ABSTRACT

We study deep learning approaches to inferring numerical coordinates for points of interest in an input image. Existing convolutional neural network-based solutions to this problem either take a heatmap matching approach or regress to coordinates with a fully connected output layer. Neither of these approaches is ideal, since the former is not entirely differentiable, and the latter lacks inherent spatial generalization. We propose our differentiable spatial to numerical transform (DSNT) to fill this gap. The DSNT layer adds no trainable parameters, is fully differentiable, and exhibits good spatial generalization. Unlike heatmap matching, DSNT works well with low heatmap resolutions, so it can be dropped in as an output layer for a wide range of existing fully convolutional architectures. Consequently, DSNT offers a better trade-off between inference speed and prediction accuracy compared to existing techniques. When used to replace the popular heatmap matching approach used in almost all state-of-the-art methods for pose estimation, DSNT gives better prediction accuracy for all model architectures tested.

研究の動機と目的

CNNの座標回帰におけるヒートマップマッチングと全結合座標出力の制約を解決する。
空間的な一般化とエンドツーエンド微分可能性を保つ、微分可能でパラメータ不要のDSNT層を提案する。
MPII人体姿勢データセット上でDSNTをさまざまなCNNアーキテクチャで評価し、精度と推論効率を検討する。
意味のあるヒートマップ形状を促進し座標予測を改善する正則化戦略を模索する。

提案手法

DSNTを、単一チャネルの正規化ヒートマップを受け取り、座標を離散的二変量分布の平均として計算する微分可能な層として定義する。
座標をXおよびY座標グリッドを用いた2D期待値として表現し、サブピクセル精度とバックプロパゲーションを可能にする。
正規化ヒートマップを作成するためにヒートマップ活性化関数（softmax、abs、ReLU、sigmoid）を使用する；softmaxが最良であることが示唆される。
損失関数をヒートマップ損失ではなくユークリッド座標損失でエンドツーエンド訓練し、損失が直接座標精度をターゲットにするようにする。
ヒートマップの形状を整えるために分散やKL/JSなどの分布類似性正則化項を導入して精度を向上させる。
DSNTをヒートマッチングおよび全結合出力と比較し、ResNetおよびスタックドアーグラスアーキテクチャで複数のヒートマップ解像度を評価する。

実験結果

リサーチクエスチョン

RQ1DSNTは空間的一般化を保持したままエンドツーエンドの座標回帰を可能にするか？
RQ2DSNTはアーキテクチャとヒートマップ解像度を跨いで伝統的なヒートマップマッチングと全結合アプローチを上回るか？
RQ3どの正則化戦略がDSNTの性能とヒートマップ品質を最も改善するか？
RQ4DSNTベースのモデルは最先端の姿勢推定アーキテクチャと比較して精度と推論速度でどうなるか？

主な発見

Head	Shoulder	Elbow	Wrist	Hip	Knee	Ankle	Total	Time (ms)	Memory
97.8	96.0	90.0	84.3	89.8	85.2	79.7	89.5	18.6 ± 0.5	636 MiB
97.6	95.6	89.6	83.9	89.2	84.8	79.0	89.0	N/A	N/A
97.9	95.1	89.9	85.3	89.4	85.7	81.7	89.7	41.3 ± 0.2	1432 MiB
98.2	96.3	91.2	87.1	90.1	87.4	83.6	90.9	60.5 ± 0.1	1229 MiB
98.5	96.7	92.5	88.7	91.1	88.6	86.0	92.0	194.6 ± 76.8	1476 MiB
97.8	96.0	90.0	84.3	89.8	85.2	79.7	89.5	18.6 ± 0.5	636 MiB

DSNTはMPII人体姿勢データにおいて、試験されたアーキテクチャ全体でヒートマッチングおよび全結合出力を一貫して上回る。
DSNTは低解像度のヒートマップ（例: 7x7）時でもヒートマッチングより精度が良く、解像度が上がるにつれて堅牢性を維持する。
特にジェンセン-シャノン分布正則化などの正則化は vanilla DSNT より精度を向上させ、ターゲットガウスパラメータが堅牢性を示す。
ResNet-50のバックボーンとDSNT（28pxヒートマップ）を用いた場合、大規模なhourglassモデルよりも推論が著しく速く、メモリ使用量を抑えつつ競争力のある精度を達成する。
DSNTはサブピクセル座標予測と座標出力を通じた全逆伝播を可能にし、argmaxベースのアプローチとは異なる。
スタックドアーグラスモデルと比較すると、DSNTベースのResNetは速度とメモリのトレードオフが有利で、精度の低下は控えめである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。