[論文レビュー] Fully Convolutional Adaptation Networks for Semantic Segmentation
FCANを提案する。Appearance-level(AAN)とRepresentation-level(RAN)の適応を組み合わせた二重ドメイン適応フレームワークで、合成シーンと実景のギャップを埋める。GTA5→CityscapesおよびBDDSで教師なしドメイン適応の最先端を達成。
The recent advances in deep neural networks have convincingly demonstrated high capability in learning vision models on large datasets. Nevertheless, collecting expert labeled datasets especially with pixel-level annotations is an extremely expensive process. An appealing alternative is to render synthetic data (e.g., computer games) and generate ground truth automatically. However, simply applying the models learnt on synthetic images may lead to high generalization error on real images due to domain shift. In this paper, we facilitate this issue from the perspectives of both visual appearance-level and representation-level domain adaptation. The former adapts source-domain images to appear as if drawn from the "style" in the target domain and the latter attempts to learn domain-invariant representations. Specifically, we present Fully Convolutional Adaptation Networks (FCAN), a novel deep architecture for semantic segmentation which combines Appearance Adaptation Networks (AAN) and Representation Adaptation Networks (RAN). AAN learns a transformation from one domain to the other in the pixel space and RAN is optimized in an adversarial learning manner to maximally fool the domain discriminator with the learnt source and target representations. Extensive experiments are conducted on the transfer from GTA5 (game videos) to Cityscapes (urban street scenes) on semantic segmentation and our proposal achieves superior results when comparing to state-of-the-art unsupervised adaptation techniques. More remarkably, we obtain a new record: mIoU of 47.5% on BDDS (drive-cam videos) in an unsupervised setting.
研究の動機と目的
- 合成データから学習したセグメンテーションモデルのドメインシフトを、ラベルなしの実データを活用して解消する。
- Appearance-levelとRepresentation-levelの不変性を組み合わせた二本立ての適応アプローチを開発する。
- 教師なしドメイン適応環境でのセグメンテーション性能の向上を実証する。
- AANとRANの組み合わせがGTA5→CityscapesおよびBDDSで最先端の結果を達成することを示す。
提案手法
- ソースドメインの画像をターゲットドメインのスタイルに似せつつ、ソースの内容を保持するようにするAANを導入する。CNN特徴マップ上の内容損失とスタイル損失を用いて実現する。
- 共有FCNとドメイン識別器を備えたRANを導入し、敵対的学習を通じたドメイン不変表現の学習を行い、マルチスケール文脈のためにASPPを拡張する。
- ソースデータ上のセグメンテーション損失とドメイン識別器を欺く敵対損失でRANを最適化する。多スケールのASPPを用いて敵対学習を強化する。
- AANは内容とスタイル距離の合成を最小化する勾配降下法で更新されるホワイトノイズ入力を用い、内容/スタイルのバランスをとる小さなαを設定する。
- AANの特徴抽出には事前学習済みのResNet-50を使用し、RANにはASPPを備えた拡張ディレートFCN(バックボーンResNet-101)と4分岐のディレーテッド識別器を採用する。
- CaffeでSGDを用いて学習を行い、ソース上でセグメンテーション損失を事前学習し、次に敵対損失とセグメンテーション損失(λ=5)でファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1AppearanceレベルとRepresentationレベルのドメイン適応を組み合わせることで、教師なしのセマンティックセグメンテーションのドメイン間適応は改善されるか。
- RQ2各構成要素(AAN、RAN、ASPP)は、異域間セグメンテーション性能にどの程度寄与するか。
- RQ3GTA5からCityscapesおよびBDDSへの移行での成果はどの程度か、MS拡張はさらなる改善をもたらすか。
- RQ4ターゲット領域の一部ラベル付きデータを用いた半教師付き拡張は、完全な教師なし適応より有益か。
主な発見
- FCANは、CityscapesにおいてGTA5→Cityscapesの教師なし設定で46.60 mIoUを達成(全構成要素搭載時)。
- AANのみでも性能は向上し、AANとRANを組み合わせると最良のmIoU(46.60)を得られ、後述のlate fusionでさらなる gainsを得る(46.60→46.60)。
- RANは敵対的ドメイン適応を通じて大きな利得をもたらし、ADA、Conv、ASPPはそれぞれ5.78%、1.88%、1.64%の寄与をし、FCNへ合計で9.3%の向上をもたらす。
- MS拡張はCityscapesでFCAN(MS)として47.75%のmIoUを達成。
- BDDSではFCANが43.35%、FCAN(MS)が45.47%、FCAN(MS+EN)が47.53%を、アンサンブルで達成。これらはFCNWildを setupに応じて3.98%から7.16%上回る。
- 半教師付き適応は、ターゲットデータのラベル付きデータを導入することでさらなる gainsを示し、例えば50ラベル付き画像でFCANは56.50 mIoU、FCNは47.57、1000画像でFCANは69.17、FCNは68.05となる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。