QUICK REVIEW

[論文レビュー] ModaNet: A Large-Scale Street Fashion Dataset with Polygon Annotations

Shuai Zheng, Fan Yang|arXiv (Cornell University)|Jul 3, 2018

Generative Adversarial Networks and Image Synthesis参考文献 45被引用数 28

ひとこと要約

ModaNetは、13種類のファッションカテゴリに対してピクセル単位のセグメンテーションマスク、ポリゴンアノテーション、バウンディングボックスを備えた、完全にアノテートされた55,176枚の画像を含む大規模なストリートファッションデータセットを提供する。このデータセットにより、ファッション理解におけるディーブラーニングモデルの高度な評価が可能となり、オブジェクト検出、セマンティックセグメンテーション、ポリゴン予測の分野で最先端の性能を達成した。特に、ポリゴン予測のベースライン平均IoUは30.7%を記録した。

ABSTRACT

Understanding clothes from a single image has strong commercial and cultural impacts on modern societies. However, this task remains a challenging computer vision problem due to wide variations in the appearance, style, brand and layering of clothing items. We present a new database called ModaNet, a large-scale collection of images based on Paperdoll dataset. Our dataset provides 55,176 street images, fully annotated with polygons on top of the 1 million weakly annotated street images in Paperdoll. ModaNet aims to provide a technical benchmark to fairly evaluate the progress of applying the latest computer vision techniques that rely on large data for fashion understanding. The rich annotation of the dataset allows to measure the performance of state-of-the-art algorithms for object detection, semantic segmentation and polygon prediction on street fashion images in detail. The polygon-based annotation dataset has been released https://github.com/eBay/modanet, we also host the leaderboard at EvalAI: https://evalai.cloudcv.org/featured-challenges/136/overview.

研究の動機と目的

実世界の多様なポーズと複雑な外見を有するファッション理解のための、大規模で細分化されたデータセットの不足に対処すること。
ファッションアイテムのオブジェクト検出、セマンティックセグメンテーション、ポリゴン予測において、最先端のコンピュータビジョンモデルの公平な評価を可能にすること。
100万枚の弱いラベルが付与されたPaperdollデータセットの上に、ピクセル単位のマスク、ポリゴン、バウンディングボックスを含む豊富なアノテーションを提供すること。
バーチャルトライオン、パーソナライズドレコメンデーション、ビジュアルサーチなどの実用的応用を支援し、ファッションアイテムの正確な局所化を可能にすること。
境界を意識したセグメンテーションや属性予測を含む、ファッションパースィング分野における今後の研究のベンチマークを確立すること。

提案手法

100万枚の弱いラベルが付与されたPaperdollデータセット内の高品質なストリートファッション画像から55,176枚を選別し、人間のポーズや衣類スタイルの多様性を確保する。
各画像に対して13種類のファッションカテゴリのピクセル単位のセグメンテーションマスクと、正確なポリゴン座標がアノテートされ、詳細なオブジェクト境界が捉えられる。
オブジェクト検出タスクをサポートするため、バウンディングボックスはポリゴンアノテーションから導出される。
ポリゴン予測の性能を評価するために、事前学習済みのPolygon-RNN++モデルをModaNetで微調整し、IoU、適合率、再現率、F1スコアを用いて評価する。
パブリックなカラーナームマッピングツールを用いて、セグメント化領域の平均RGB値を細分化されたカラーネームにマッピングすることで、カラーアトリビュート予測プロトタイプを開発する。
オブジェクト検出、セグメンテーション、ポリゴン予測タスクにおいて、複数の最先端のディーブラーニングモデル（例：DeepLabV3+、FCN-8、ResNet-50エンコーダ）を評価する。

実験結果

リサーチクエスチョン

RQ1細分化されたアノテーションを備えた大規模で多様なファッションデータセットにおいて、最先端のディープニューラルネットワークのオブジェクト検出およびセマンティックセグメンテーションにおける性能はどのように変動するか？
RQ2ModaNetで学習されたポリゴン予測モデルは、ファッションアイテムの高精度な境界局所化を達成できるか。また、ベースライン性能はどの程度か？
RQ3ModaNetのセマンティックセグメンテーションマスクは、ファッションアイテムの細分化されたカラーアトリビュートを予測するためにどの程度活用可能か？
RQ4ModaNetに含まれる多様なポーズと複雑なオクルージョンが、より小さい、多様性に欠けるデータセットと比較してモデルの一般化性能に与える影響はいかほどか？
RQ5豊富なアノテーション（ポリゴン、マスク、ボックス）は、実世界の応用におけるファッション理解モデルの性能にどのような影響を及えるか？

主な発見

ModaNetデータセットには、完全にアノテートされた55,176枚のストリートファッション画像が含まれており、ピクセル単位のアノテーションを持つ前例に比べて10倍の規模である。
Polygon-RNN++ベースラインは、ポリゴン予測において平均IoUが30.7%、平均適合率が83.4%、平均再現率が32.5%、平均F1スコアが45.0%を達成し、今後の研究のベンチマークを確立した。
DeepLabV3+は全カテゴリで最高の平均IoU81%を記録し、FCN-8や他のモデルを上回った。
失敗事例から、モデルが小さなアイテムや部分的に隠されたアイテム（例：ネクタイ）を落としやすく、類似カテゴリ（例：ブーツ vs. 靴）を混同する傾向があることが判明し、細分化された局所化の課題が浮き彫りになった。
カラーアトリビュート予測プロトタイプは、セグメント化領域を記述的なカラーネームにマッピングすることに成功し、セグメンテーションマスクが後続の応用に有用であることを示した。
このデータセットのおかげで、スケール、アノテーションの豊富さ、実世界の多様性の観点から、ファッション理解タスクの大幅な向上が可能になった。粒度と範囲の両面で、以前のデータセットを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。