QUICK REVIEW

[論文レビュー] VisDA: The Visual Domain Adaptation Challenge

Xingchao Peng, Ben Usman|arXiv (Cornell University)|Oct 18, 2017

Domain Adaptation and Few-Shot Learning参考文献 49被引用数 575

ひとこと要約

VisDA2017の大規模な合成-to-実世界の教師なしドメイン適応ベンチマークを導入。画像分類と意味セグメンテーション向け。ベースライン結果とチャレンジ系手法が、ドメイン適応手法から顕著な改善を示す。

ABSTRACT

We present the 2017 Visual Domain Adaptation (VisDA) dataset and challenge, a large-scale testbed for unsupervised domain adaptation across visual domains. Unsupervised domain adaptation aims to solve the real-world problem of domain shift, where machine learning models trained on one domain must be transferred and adapted to a novel visual domain without additional supervision. The VisDA2017 challenge is focused on the simulation-to-reality shift and has two associated tasks: image classification and image segmentation. The goal in both tracks is to first train a model on simulated, synthetic data in the source domain and then adapt it to perform well on real image data in the unlabeled test domain. Our dataset is the largest one to date for cross-domain object classification, with over 280K images across 12 categories in the combined training, validation and testing domains. The image segmentation dataset is also large-scale with over 30K images across 18 categories in the three domains. We compare VisDA to existing cross-domain adaptation datasets and provide a baseline performance analysis using various domain adaptation models that are currently popular in the field.

研究の動機と目的

ドメインシフト問題を解決するため、合成から実画像への教師なしドメイン適応（UDA）を評価する。
物体分類と意味セグメンテーションの両方のための大規模な多ドメインベンチマークを提供する。
ターゲットドメインのラベルや教師あり事前学習への依存を抑制し、頑健なUDA手法の開発を促す。
クロスドメイン視覚認識の進展を促すためのベースラインとチャレンジ結果を提供する。

提案手法

12カテゴリにわたるCOCOとYouTube-BBからの152,397の合成トレーニング画像と実データ検証/テスト画像を用いた大規模なVisDA-C分類データセットを構築する。
ベースラインCNN（AlexNet、ResNet/ResNext系）をDANやDeep CORALなどのUDA手法と比較する。
MMDベースおよび2次統計整列技法を用いた教師なしドメイン適応を実装する。
検証ドメインをMS COCO、テストドメインをYouTube Bounding Boxesとすることで、テストセットのハイパーパラメータ調整を防ぐ。
GTA5（合成）からCityScapes（実世界）へのVisDA-S意味セグメンテーションをNexarをテストドメインとして拡張する。
ドメイン適応による利得を示すベースラインとチャレンジ結果を提供し、より堅牢なUDA手法の動機づけを行う。

実験結果

リサーチクエスチョン

RQ1合成データで訓練されたモデルは、ラベルなしの実ターゲットドメインへどれだけ適応できるか（画像分類）？
RQ2標準的なUDA手法（例：DAN、Deep CORAL）は、ソースのみのベースラインと比較してVisDA-Cでどの程度の利得を挙げるか？
RQ3合成から実世界へのシフトにおける意味セグメンテーションの教師なしドメイン適応はどう機能するか（GTA5 to CityScapes、Nexarテスト）？
RQ4検証分割、ターゲットラベルの欠如、事前学習依存など、設計上のどの選択が難易度と結果に影響を与えるか？
RQ5UDA手法をより厳しく評価するために、どんな方向性がタスクの難易度を高めるか？

主な発見

VisDA-Cは12カテゴリにまたがる28万以上の画像で構成され、合成トレーニングデータと実データ検証/テストデータを含む。
合成-to-実世界におけるソースのみのAlexNetの平均精度が28.12%へ低下し、顕著なドメインシフトを示す。
DANはVisDA-Cで検証精度を51.62%、Deep CORALは45.53%に向上し、ソースのみベースラインを上回る。
トップチャレンジ結果はSemi-supervisedとteacher-student戦略を用いてさらに大きな利得を示し（例：GFColourLabUEAはテストで最大92.8%を達成）
VisDA-Sのセグメンテーションでは、GTA5からCityScapesへの適応により検証でMean IoUが21.6から25.5へ向上。Nexarテストドメインでも競争力のある結果。
現実的な展開シナリオを反映するために、ImageNetなどの教師付き事前学習への依存を減らすことを強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。