QUICK REVIEW

[論文レビュー] No More Discrimination: Cross City Adaptation of Road Scene Segmenters

Yi‐Hsin Chen, Wei-Yu Chen|arXiv (Cornell University)|Apr 27, 2017

Advanced Neural Network Applications参考文献 37被引用数 23

ひとこと要約

本論文は、Google Street Viewのタイムマシン機能を用いて抽出した静的物体の事前知識とドメイン adversarial learning を組み合わせた教師なしドメイン適応フレームワークを、都市間をまたぐレートシーンのセマンティックセグメンテーションに提案する。時間的経過にわたるラベルなし画像を活用して静的シーン構造を推定し、グローバルおよびクラス固有のドメイン整合を同時に適用することで、人為的アノテーションを一切用いずに未学習都市においてmIoUを最大4.1%向上させ、最先端のアプローチを上回る性能を達成した。

ABSTRACT

Despite the recent success of deep-learning based semantic segmentation, deploying a pre-trained road scene segmenter to a city whose images are not presented in the training set would not achieve satisfactory performance due to dataset biases. Instead of collecting a large number of annotated images of each city of interest to train or refine the segmenter, we propose an unsupervised learning approach to adapt road scene segmenters across different cities. By utilizing Google Street View and its time-machine feature, we can collect unannotated images for each road scene at different times, so that the associated static-object priors can be extracted accordingly. By advancing a joint global and class-specific domain adversarial learning framework, adaptation of pre-trained segmenters to that city can be achieved without the need of any user annotation or interaction. We show that our method improves the performance of semantic segmentation in multiple cities across continents, while it performs favorably against state-of-the-art approaches requiring annotated training data.

研究の動機と目的

訓練都市と異なる視覚的特徴を示す都市にモデルを適用する際のドメインシフト問題に対処すること。
ターゲット都市における高価な人為的アノテーションを不要にすることで、教師なし適応を可能にすること。
ラベルなし画像と時間的整合性のみを用いて、多様な都市環境におけるセグメンテーション性能を向上させること。
グローバルおよびクラス別ドメイン整合を同時に実行するフレームワークを構築し、強固な適応を実現すること。
人為的監視なしに、アノテーションなしで時間的に整合したストリートビュー画像から静的物体の事前知識を抽出すること。

提案手法

同じ都市の同一位置から異なる時刻にわたるラベルなしで時間的に同期された画像を、Google Street Viewのタイムマシン機能を用いて収集する。
時間経過にわたって一貫して出現する物体（例：標識、建物）を特定することで静的物体の事前知識を抽出し、ドメイン整合の弱い監視信号として活用する。
ソースドメイン（例：Cityscapes）とターゲットドメイン（例：ローマ、台北）間の特徴分布を、グローバルおよびクラス固有のドメイン adversarial learning フレームワークで統一する。
事前学習済みソースモデルを用いてターゲットドメイン画像の「ソフト」疑似ラベルを生成し、クラス別適応によりドメイン識別を低減する。
静的物体の事前知識を adversarial 学習プロセスに統合し、特徴学習をガイドし一般化性能を向上させる。
勾配反転を用いた adversarial 学習を適用し、ドメイン差を最小化するとともに、意味的整合性を保持する。

実験結果

リサーチクエスチョン

RQ1事前学習済みセグメンテーションモデルを新しい都市に適用する際、ラベルなしデータを一切用いずに教師なしドメイン適応が、性能の低下を顕著に軽減できるか？
RQ2時間経過にわたるストリートビュー画像から抽出した静的物体の事前知識は、都市間セグメンテーション性能の向上にどの程度有効か？
RQ3グローバルな整合に加えてクラス別ドメイン整合を組み合わせることで、ドメインシフトの緩和に優れるか？
RQ4合成データ（SYNTHIA）から実世界データ（Cityscapes）への変換といった大きなドメインシフトにおいて、本手法はどの程度の性能を示すか？
RQ5本手法は、人為的アノテーションを一切用いずに、完全に教師あり微調整と同等の性能を達成できるか？

主な発見

本手法は、4都市（ローマ、リオ、台北、東京）において、事前学習済みモデルと比較して平均で4.1%のmIoU向上を達成し、性能低下の最大30%の低減を実現した。
グローバルドメイン整合のみで2.6%のmIoU向上、クラス別整合で0.9%、静的物体の事前知識で追加で0.6%のmIoU向上が得られた。
t-SNEの可視化により、事前学習済みモデルから最終的な適応モデルへと移行するに従い、ドメインシフトが段階的に軽減されていることが確認され、統合的整合フレームワークの有効性が裏付けられた。
静的物体の事前知識を抽出できないSYNTHIAからCityscapesへの適応タスクにおいても、グローバル整合で3.1%、クラス別整合で1.9%のmIoU向上を達成した。
アノテーション付き学習データを必要とする最先端の手法を上回り、多様なドメインシフトにわたる強力な一般化性能と耐障害性を示した。
アブレーションスタディにより、各構成要素（グローバル整合、クラス別整合、静的物体の事前知識）が独立して寄与するとともに、累積的に性能向上に寄与していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。