[論文レビュー] The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation
本論文は、人間のポーズ推定パイプラインにおける偏ったデータ処理を特定し、Unbiased Data Processing (UDP) を提案して、追加のレイテンシなしでモデルに依存しない性能向上を実現することを示し、COCOとCrowdPoseで検証している。
Being a fundamental component in training and inference, data processing has not been systematically considered in human pose estimation community, to the best of our knowledge. In this paper, we focus on this problem and find that the devil of human pose estimation evolution is in the biased data processing. Specifically, by investigating the standard data processing in state-of-the-art approaches mainly including coordinate system transformation and keypoint format transformation (i.e., encoding and decoding), we find that the results obtained by common flipping strategy are unaligned with the original ones in inference. Moreover, there is a statistical error in some keypoint format transformation methods. Two problems couple together, significantly degrade the pose estimation performance and thus lay a trap for the research community. This trap has given bone to many suboptimal remedies, which are always unreported, confusing but influential. By causing failure in reproduction and unfair in comparison, the unreported remedies seriously impedes the technological development. To tackle this dilemma from the source, we propose Unbiased Data Processing (UDP) consist of two technique aspect for the two aforementioned problems respectively (i.e., unbiased coordinate system transformation and unbiased keypoint format transformation). As a model-agnostic approach and a superior solution, UDP successfully pushes the performance boundary of human pose estimation and offers a higher and more reliable baseline for research community. Code is public available in https://github.com/HuangJunJie2017/UDP-Pose
研究の動機と目的
- 姿勢推定システムにおける見落とされがちなデータ処理の偏りを動機づけ、是正する。
- 偏りのない座標系変換と偏りのないキーポイント形式変換を定義する。
- モデルに依存しないUDPフレームワークを提供し、最先端手法への影響を分析する。
提案手法
- 座標系変換を形式化するために、データを連続空間で定義する。
- クロップ、リサイズ、回転、反転の偏りのない変換を導出し、偏りのないパイプラインを証明する(式2、3、9-13)。
- 偏りのないキーポイント形式変換と、ヒートマップとの関係を含む偏りのないデコード/エンコード戦略を導入する。
- 画素ベースのサイズ指定がアライメントのずれを生む偏りのあるパイプラインを診断し、解決策を示す。
- COCOとCrowdPose上でUDPを評価し、トップダウンおよびボトムアップ手法における性能とレイテンシ利益を示す。
実験結果
リサーチクエスチョン
- RQ1姿勢推定パイプラインで一般的に用いられる座標系変換にはどのような偏りが存在するか?
- RQ2座標系変換とキーポイント形式変換をどのように偏りのない設計にできるか?
- RQ3UDPは標準ベンチマークで、トップダウンおよびボトムアップといった異なる姿勢推定パラダイムにおいて、精度と/または速度を改善するか?
主な発見
- UDPはトップダウンのSimpleBaselineを70.2から71.7 APへ、(ResNet50-256×192) および71.9から72.9 APへ (ResNet152-256×192) 改善する。
- UDPはHRNet W32-256×192を73.5から75.2 APへ、W48-256×192を74.3から75.7 APへ改善する。
- UDPはHRNet-W48-384×288を76.5 APに押し上げ、トップダウン姿勢推定の新しい最先端を確立する。
- ボトムアップの HRNet-W32-512×512 では、UDPは2.7 APの向上と6.1× の推論速度向上をもたらす。HigherHRNetも待機時間を削減しながら向上する。
- CrowdPoseの実験は、UDPがCOCOを超えてうまく一般化することを示している。
- UDPは2020年のCOCOキーポイント検出チャレンジの優勝者(UDP++)の重要なベースラインとして機能した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。