QUICK REVIEW

[論文レビュー] Annotating Object Instances with a Polygon-RNN

Lluís Castrejón, Kaustav Kundu|arXiv (Cornell University)|Apr 18, 2017

Advanced Image and Video Retrieval Techniques参考文献 33被引用数 40

ひとこと要約

本論文では、画像クロップからオブジェクトを囲むポリゴン頂点を再帰的ニューラルネットワークで逐次予測することで、オブジェクトインスタンスのアノテーションを半自動化する Polygon-RNN を提案する。アノテーターによるインタラクティブな修正が可能であり、Cityscapes ではアノテーション時間を 4.7 倍短縮し、アノテーション精度は正解との IOU で 78.4% を達成（人間アノテーターの一致度と同等）する。また、KITTI などの未学習データセットに対しても一般化性能を示す。

ABSTRACT

We propose an approach for semi-automatic annotation of object instances. While most current methods treat object segmentation as a pixel-labeling problem, we here cast it as a polygon prediction task, mimicking how most current datasets have been annotated. In particular, our approach takes as input an image crop and sequentially produces vertices of the polygon outlining the object. This allows a human annotator to interfere at any time and correct a vertex if needed, producing as accurate segmentation as desired by the annotator. We show that our approach speeds up the annotation process by a factor of 4.7 across all classes in Cityscapes, while achieving 78.4% agreement in IoU with original ground-truth, matching the typical agreement between human annotators. For cars, our speed-up factor is 7.3 for an agreement of 82.2%. We further show generalization capabilities of our approach to unseen datasets.

研究の動機と目的

高品質なオブジェクトインスタンスセグメンテーションデータセット作成にかかる時間とコストを削減すること。
人間のポリゴンベースのアノテーションを模倣しつつ、リアルタイムでの修正が可能な手法を開発すること。
最小限の人的介入で、人間アノテーター間の一致度と同等のアノテーション精度を達成すること。
モデルの未学習データセット（例：KITTI）への一般化性能を評価すること。

提案手法

オブジェクトインスタンスを囲むポリゴンの頂点を逐次的に予測する再帰的ニューラルネットワーク（Polygon-RNN）を訓練する。
モデルは画像クロップとバウンディングボックスを入力とし、逐次的に1頂点ずつ出力する。
アノテーターは、任意の予測頂点をリアルタイムで修正可能であり、繰り返しの改善によって望みの精度に到達できる。
ポリゴンの構造的整合性を活用することで、現実的で穴のないオブジェクトアウトラインを生成する。
モデルは Cityscapes で学習し、Cityscapes および KITTI で評価することで、ゼロショット一般化性能を評価する。
推論では固定ステップ数 T を使用し、T=4 の場合、平均して 1 インスタンスあたり 5.84 クリックとなる。

実験結果

リサーチクエスチョン

RQ1深層学習モデルがポリゴンとしてオブジェクトアウトラインを予測することで、アノテーション時間を大幅に短縮できるか？
RQ2Polygon-RNN のアノテーション品質は、IoU の一致度において人間アノテーターと比べてどの程度か？
RQ3Cityscapes で学習したモデルが、KITTI のような異なるデータセットにどの程度一般化できるか？
RQ4予測頂点のインタラクティブな修正は、最小限のユーザー入力でセグメンテーション精度を向上させられるか？

主な発見

Polygon-RNN は、Cityscapes 全クラスでアノテーション時間を 4.74 倍短縮し、T=4 の場合、1 インスタンスあたり平均 5.84 クリックとなる。
Cityscapes では正解との IOU で 78.4% の一致度を達成し、典型的な人間アノテーター間の一致度と同等である。
特に車両に対しては、T=4 の場合、7.3 倍の高速化と 82.2% の IOU 一致度を達成する。
未学習の KITTI データセットでは、平均 5.84 クリックで IOU 84.11% を達成し、完全自動ベースラインを上回る。
モデルは新しいデータセットに対しても良好に一般化し、オブジェクトの外観やスケールのドメインシフトに対しても頑健であることが示された。
修正なし（T=0）の状態でも、74.22% の IOU を達成しており、優れたベースライン性能を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。