QUICK REVIEW

[論文レビュー] Looking at Outfit to Parse Clothing

Pongsate Tangseng, Zhipeng Wu|arXiv (Cornell University)|Mar 4, 2017

Fashion and Cultural Textiles参考文献 39被引用数 48

ひとこと要約

本稿では、組み合わせ的衣類意味をモデル化するサイドパス・オシャレエンコーダと、一貫性のあるラベル割り当てを実現する条件付きランダムフィールド（CRF）を統合することで、衣類パーサーのための拡張された完全畳み込みネットワーク（FCN）を提案する。本手法は、追加の教師信号なしにFashionistaおよびCFPDデータセットで最先端の性能を達成しており、学習されたオシャレエンコーダ表現により、スタイルベースの画像検索が有効に可能となる。

ABSTRACT

This paper extends fully-convolutional neural networks (FCN) for the clothing parsing problem. Clothing parsing requires higher-level knowledge on clothing semantics and contextual cues to disambiguate fine-grained categories. We extend FCN architecture with a side-branch network which we refer outfit encoder to predict a consistent set of clothing labels to encourage combinatorial preference, and with conditional random field (CRF) to explicitly consider coherent label assignment to the given image. The empirical results using Fashionista and CFPD datasets show that our model achieves state-of-the-art performance in clothing parsing, without additional supervision during training. We also study the qualitative influence of annotation on the current clothing parsing benchmarks, with our Web-based tool for multi-scale pixel-wise annotation and manual refinement effort to the Fashionista dataset. Finally, we show that the image representation of the outfit encoder is useful for dress-up image retrieval application.

研究の動機と目的

より上位の意味的・文脈的情報を用いて、衣類分類の細分化されたカテゴリの区別を困難にする問題に取り組む。
サイドブランチのオシャレエンコーダを用いて、たとえば「スカートとドレスを同時に着ない」といった組み合わせ的好みをモデル化することで、衣類パーサーの性能を向上させる。
空間的および意味的整合性を保証するCRFを用いて、予測におけるラベルの一貫性を向上させる。
新しいWebベースのピクセル単位のアノテーションツールを用いて、アノテーション品質がベンチマーク性能に与える影響を調査する。
オシャレエンコーダの内部表現が、ドレスアップスタイルの検索にどのように有用かを検討する。

提案手法

衣類の組み合わせにおける意味的整合性を捉えるために、一貫した衣類ラベルを予測するサイドブランチネットワーク「オシャレエンコーダ」を導入する。
空間的および意味的整合性をラベル割り当てに強制することで、FCNの予測を改善するため、完全結合CRF層を統合する。
限定的なアノテーションデータを活用し、追加の教師信号なしに、事前学習済みFCNを用いて、ネットワーク全体をエンドツーエンドで微調整する。
データセット品質の向上を目的として、マルチスケールかつ高解像度のピクセル単位のラベリングを可能にするWebベースのインタラクティブアノテーションツールを開発する。
オシャレエンコーダから256次元のコンact表現を抽出し、画像検索タスクに活用する。
検索には、エンコーダの表現におけるユークリッド距離を用い、ベースラインとして一般的なVGG16 fc7特徴量と比較する。

実験結果

リサーチクエスチョン

RQ1サイドパスのオシャレエンコーダにより、衣類の組み合わせにおける意味的整合性をモデル化することで、衣類パーサー性能が向上するか？
RQ2CRFによる精練が、衣類パーサーの予測におけるラベルの一貫性をどの程度向上させるか？
RQ3アノテーション品質が、衣類パーサーのベンチマーク性能にどのように影響するか？
RQ4オシャレエンコーダの内部表現は、スタイルベースの画像検索に有効に利用できるか？
RQ5提案手法は、FashionistaやCFPDといった公開ベンチマークで最先端の性能を達成するか？

主な発見

提案モデルは、トレーニング中に追加の教師信号を必要とせず、FashionistaおよびCFPDデータセットの両方で最先端の性能を達成した。
トレーニング分割とテスト分割の間で顕著な性能差が観察されたことから、より大規模で高品質なベンチマークの必要性が示された。
Webベースのツールを用いたFashionistaデータセットの手動での精錬により、特に「ブレザー」と「ジャケット」のような類似カテゴリ間の混乱が解消された。
オシャレエンコーダが学習した表現により、色やテクスチャが異なっても「ジャケット＋トップス＋ショートパンツ」のような意味的に類似したオシャレの検索が有効に可能となった。
オシャレエンコーダを用いた検索は、背景や色といった低レベルの外観特徴に依存する一般的なVGG16 fc7特徴量を上回り、衣類の組み合わせに焦点を当てた検索が可能となった。
オシャレエンコーダの内部表現はコンactであり、追加の学習コストなしにファッション指向のアプリケーションに有用であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。