[論文レビュー] Associative Embedding: End-to-End Learning for Joint Detection and Grouping
連想埋め込みを用いて検出とグルーピングを単一段階ネットワークで共同訓練し、マルチ人ポーズ推定(MPIIおよびMS-COCO)で最先端の結果を達成し、インスタンス分割への適用可能性を示す。
We introduce associative embedding, a novel method for supervising convolutional neural networks for the task of detection and grouping. A number of computer vision problems can be framed in this manner including multi-person pose estimation, instance segmentation, and multi-object tracking. Usually the grouping of detections is achieved with multi-stage pipelines, instead we propose an approach that teaches a network to simultaneously output detections and group assignments. This technique can be easily integrated into any state-of-the-art network architecture that produces pixel-wise predictions. We show how to apply this method to both multi-person pose estimation and instance segmentation and report state-of-the-art performance for multi-person pose on the MPII and MS-COCO datasets.
研究の動機と目的
- 2段階パイプラインではなく、結合検出とグルーピングを1段階の問題として動機付ける。
- 各検出におけるタグとして、グループ識別情報を符号化する連想埋め込みを導入する。
- 検出ヒートマップと埋め込みタグの両方をエンドツーエンドで予測するネットワークの訓練方法を示す。
- マルチペルソンポーズ推定タスクで最先端の性能を示す。
- 連想埋め込みをインスタンス分割へ適用可能であることを示す。
提案手法
- 積み重ね式アワーグラスネットワークを用いて、各対象(例:体の関節)ごとに検出ヒートマップと1次元埋め込みタグヒートマップを予測する。
- 検出損失(ヒートマップのMSE)と、同一グループの検出の埋め込みを類似、異なるグループの埋め込みを dissimilar にするグルーピング損失で訓練する。
- 各グループの参照埋め込みをメンバーの平均埋め込みとして定義し、同一グループ内の距離を抑制すると同時に、異なるグループ間を距離に応じて指数的に引き離す。
- デコーディング:ピーク検出を抽出し、タグを取得し、タグの類似性で検出をグルーピングして最終的な人物ポーズまたは物体インスタンスを形成する。
- 複数スケールの予測を処理するため、スケール間でヒートマップを平均化し、スケールごとのタグを連結してより豊かな埋め込みとする。
- このアプローチをマルチペルソンポーズ推定とインスタンス分割の概念実証として適用する。
実験結果
リサーチクエスチョン
- RQ1個別の後処理グルーピングステップなしに、検出とグルーピングを1段階CNNで共同学習できるか。
- RQ2検出ごとの埋め込みタグは、ポーズ推定と分割タスクでグループ(例:異なる人物)を効果的に識別・分離するか。
- RQ3マルチスケール評価と補助的な単一人物リファインメントが全体性能に与える影響は?
- RQ4連想埋め込みはポーズ推定を超えてインスタンス分割のようなタスクにも広く適用可能か。
主な発見
- MPII Multi-Personで最先端のAPを達成(0.663 AP, 0.865 AP50, 0.727 AP75, 0.613 AP_M, 0.732 AP_L, 0.715 AR, 0.897 AR50, 0.772 AR75, 0.662 AR_M, 0.787 AR_L)。
- MS-COCOでは、マルチスケール評価と任意の単一人物リファインメントを使用した場合、test-devおよびtest-stdで競争力が高く最先端の結果を達成。
- Simple embedding tagで検出を関連付けると、別個のクラスタリングやCRFステップなしでエンドツーエンドのグルーピングが可能であることを示す。
- 2つのヒートマップ出力(検出ヒートマップとタグ付けヒートマップ)が、複数の関節/クラスにまたがる共同検出とグルーピングに十分であることを示す。
- 主なボトルネックはグルーピングではなく検出品質であると示し、真の検出があるとAPが大幅に向上する(アブレーションで59.2から94.0へ)。
- 同じ連想埋め込みフレームワークをインスタンス分割へ拡張し、概念実証としてPASCAL VOC 2012で適切なmAPを得る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。