[論文レビュー] InstaBoost: Boosting Instance Segmentation via Probability Map Guided Copy-Pasting
この論文では、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張手法であるInstaBoostを提案する。この手法は、確率マップでガイドされたオブジェクトのコピーペーストにより、ネットワークアーキテクチャを変更せず、推論コストを増加させることなく性能を向上させる。外見の一貫性ヒートマップを活用して現実的なオブジェクト配置をガイドし、ランダムなジッタリングを適用することで、COCOで2.2 mAP、Pascal VOCで3.9 mAPの向上を達成した。
Instance segmentation requires a large number of training samples to achieve satisfactory performance and benefits from proper data augmentation. To enlarge the training set and increase the diversity, previous methods have investigated using data annotation from other domain (e.g. bbox, point) in a weakly supervised mechanism. In this paper, we present a simple, efficient and effective method to augment the training set using the existing instance mask annotations. Exploiting the pixel redundancy of the background, we are able to improve the performance of Mask R-CNN for 1.7 mAP on COCO dataset and 3.3 mAP on Pascal VOC dataset by simply introducing random jittering to objects. Furthermore, we propose a location probability map based approach to explore the feasible locations that objects can be placed based on local appearance similarity. With the guidance of such map, we boost the performance of R101-Mask R-CNN on instance segmentation from 35.7 mAP to 37.9 mAP without modifying the backbone or network structure. Our method is simple to implement and does not increase the computational complexity. It can be integrated into the training pipeline of any instance segmentation model without affecting the training and inference efficiency. Our code and models have been released at https://github.com/GothicAi/InstaBoost
研究の動機と目的
- インスタンスセグメンテーションにおけるアノテート済みトレーニングデータの制限に取り組むために、データ拡張戦略を改善すること。
- 既存のインスタンスマスクアノテーションを効果的に活用して、多様で現実的なトレーニングサンプルを生成する手法を開発すること。
- バックボーンやネットワーク構造を変更せずに、インスタンスセグメンテーションモデルの過学習を低減し、一般化性能を向上させること。
- 既存のトレーニングパイプラインにスムーズに統合できる軽量で効率的な拡張技術を設計すること。
提案手法
- 元の位置の周辺に小さなランダムジッタリング(スケールおよび回転)を加えたオブジェクトのコピーペーストを実行するランダムInstaBoostを提案する。
- 局所的な輪郭類似度と背景の冗長性に基づいて、物体の配置が可能な領域をモデル化する外見の一貫性ヒートマップを導入する。
- ヒートマップを用いて貼り付け位置をサンプリング・ガイドし、空間的および視覚的に妥当な配置を保証する。
- モデルアーキテクチャを変更せず、推論時間も増加させずにトレーニング中に拡張を適用する。
- トランスレーション、スケーリング、回転、アスペクト比の4次元変換空間を用い、恒等変換の周囲で一様にサンプリングするジッタリングを実装する。
- 局所的な輪郭類似度を用いて、物体の貼り付けが背景と視覚的に一貫する領域を特定することで、外見の一貫性ヒートマップを構築する。
実験結果
リサーチクエスチョン
- RQ1ネットワークアーキテクチャを変更せずに、コピーされたインスタンスのランダムジッタリングがインスタンスセグメンテーションの性能向上に寄与するか?
- RQ2外見の一貫性に基づく学習済み確率マップが、コピーペースト拡張の現実性と有効性を向上させるか?
- RQ3ヒートマップでガイドされたInstaBoostは、ランダムペーストおよびコンテキストベースのモデルと比較してmAPおよびトレーニング効率において優れているか?
- RQ4InstaBoostはどの程度、インスタンスセグメンテーションモデルの過学習を軽減するか?
主な発見
- Res-101-FPN Mask R-CNNを用いたCOCOインスタンスセグメンテーションにおいて、InstaBoostは2.2 mAPの向上を達成し、性能を35.7 mAPから37.9 mAPに向上させた。
- Pascal VOCでは、mAPが3.9ポイント向上し、ベースラインの38.88から42.73に到達した。
- 外見の一貫性ヒートマップでガイドされた手法は、VOCでは1.3 mAP、COCOでは1.1 mAPの向上をランダムペーストよりも達成し、空間的ガイドの重要性を確認した。
- 過学習が軽減された:InstaBoostを用いることで、24エポックを過ぎても検出およびセグメンテーションのmAPが向上を続けたのに対し、ベースラインではその傾向が見られなかった。
- 推論速度は維持され、COCOでは1イテレーションあたり1.71秒のトレーニング時間であり、ベースラインの1.68秒とほぼ同等であった。
- 感度分析の結果、スケーリング比がトランスレーション比よりも重要であり、最適な値はそれぞれ0.8–1.2および1/15に設定された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。