[論文レビュー] Associative Embedding: End-to-End Learning for Joint Detection and Grouping
結合埋め込みを導入し、検出とグルーピングを単一のエンドツーエンドネットワークで同時に行い、最先端の多人数姿勢推定を達成し、インスタンス分割への適用性を示す。
We introduce associative embedding, a novel method for supervising convolutional neural networks for the task of detection and grouping. A number of computer vision problems can be framed in this manner including multi-person pose estimation, instance segmentation, and multi-object tracking. Usually the grouping of detections is achieved with multi-stage pipelines, instead we propose an approach that teaches a network to simultaneously output detections and group assignments. This technique can be easily integrated into any state-of-the-art network architecture that produces pixel-wise predictions. We show how to apply this method to both multi-person pose estimation and instance segmentation and report state-of-the-art performance for multi-person pose on the MPII and MS-COCO datasets.
研究の動機と目的
- 検出とグルーピングを、ビジョン全般の統一タスクとして動機付け、定式化する。
- 1つのネットワークで検出とグルーピング識別子(タグ)を出力する方法を学ぶ。
- 検出とグルーピングを結びつけるエンドツーエンドの訓練を可能にし、精度を向上させる。
- マルチパーソン姿勢推定とインスタンス分割への適用性を示す。
- 単純で汎用的なアーキテクチャが、マルチステージパイプラインを用いずに検出とグルーピングを同時にサポートできることを示す。
提案手法
- アソシエイティブ埋め込みを導入する:各検出にはグループ識別を示すタグが付与される。
- グルーピングのためのピクセルごとの検出ヒートマップとピクセルごとのタグヒートマップを予測する。
- 同一グループのタグを近づけ、異なるグループのタグを遠ざけるタグ付け損失で訓練する。
- スタックドホーアグラスネットワークを用いて検出とタグの密なヒートマップを生成する。
- 同様のタグ値(またはスケール間のベクトル)を持つ検出を照合してグループをデコードする。
- マルチスケール評価を適用し、必要に応じて単一人物 pose 推定器で精度を高める。
実験結果
リサーチクエスチョン
- RQ1検出とグルーピングを単一段階のエンドツーエンドネットワークで jointly 学習できるか?
- RQ2グラウンドトゥルータグ値なしで信頼できるグルーピングタグを出力するよう、ネットワークをどのように訓練すべきか?
- RQ3アソシエイティブ埋め込みをマルチパーソン姿勢推定とインスタンス分割に適用した場合の性能向上はどの程度か?
主な発見
| Dataset | AP | AP50 | AP75 | AP M | AP L | AR | AR50 | AR75 | AR M | AR L |
|---|---|---|---|---|---|---|---|---|---|---|
| MPII Multi-Person (Our method) | 0.663 | 0.865 | 0.727 | 0.613 | 0.732 | 0.715 | 0.897 | 0.772 | 0.662 | 0.787 |
| MS-COCO test-dev (Our method) | 0.655 | 0.868 | 0.723 | 0.606 | 0.726 | 0.702 | 0.895 | 0.760 | 0.646 | 0.781 |
| MS-COCO test-std (Our method) | 0.655 | 0.868 | 0.723 | 0.606 | 0.726 | 0.702 | 0.895 | 0.760 | 0.646 | 0.781 |
- MPIIのマルチパーソン姿勢推定およびMS-COCOのマルチパーソン姿勢推定で最先端の結果を達成。
- MPIIでは、当手法がマルチパーソン姿勢推定のAPを従来法より高くする。
- MS-COCOでは、test-devとtest-stdの双方で最先端の性能に達する。
- エンドツーエンドの結合検出とグルーピングが、タスクを横断してマルチステージパイプラインと同等以上になり得ることを示す。
- マルチスケール評価が性能を向上させ、グルーピングの品質が検出精度と相関することを示す。
- グルーピングを容易にデコードできるよう、十分に分離した埋め込みタグの定性的証拠を提供。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。