QUICK REVIEW

[論文レビュー] Recognition in Unseen Domains: Domain Generalization via Universal Non-volume Preserving Models.

Thanh-Dat Truong, Chi Nhan Duong|arXiv (Cornell University)|May 28, 2019

Domain Adaptation and Few-Shot Learning参考文献 23被引用数 2

ひとこと要約

本論文は、微調整が許可されない状況下でも未知のドメインでの認識を可能にする、深層学習におけるドメイン一般化のためのユニバーサル非体積保存（NVP）モデルを提案する。正規化フローを用いてドメイン不変表現を学習することで、MNIST、顔認識、赤外線歩行者認識を含む多様なデータセットにおいて一貫した精度向上を達成する。

ABSTRACT

Recognition across domains has recently become an active topic in the research community. However, it has been largely overlooked in the problem of recognition in new unseen domains. Under this condition, the delivered deep network models are unable to be updated, adapted or fine-tuned. Therefore, recent deep learning techniques, such as: domain adaptation, feature transferring, and fine-tuning, cannot be applied. This paper presents a novel approach to the problem of domain generalization in the context of deep learning. The proposed method is evaluated on different datasets in various problems, i.e. (i) digit recognition on MNIST, SVHN and MNIST-M, (ii) face recognition on Extended Yale-B, CMU-PIE and CMU-MPIE, and (iii) pedestrian recognition on RGB and Thermal image datasets. The experimental results show that our proposed method consistently improves the performance accuracy. It can be also easily incorporated with any other CNN frameworks within an end-to-end deep network design for object detection and recognition problems to improve their performance.

研究の動機と目的

モデルの更新や微調整が許可されない未知のドメインからのデータ認識の課題に対処すること。
ドメイン固有の適応に依存せずに、多様なデータ分布に一般化するドメイン一般化手法を開発すること。
未知または未知のドメインシフトが生じる実世界のシナリオにおける深層学習モデルのデプロイを可能にすること。
オブジェクト検出および認識タスクにおけるエンドツーエンド統合を可能にする、既存のCNNフレームワークとの互換性を確保すること。

提案手法

複数のドメインにまたがるドメイン不変特徴表現を学習するために、ユニバーサル非体積保存（NVP）フローを用いる。
正規化フローを適用して複雑な非線形変換をモデル化しつつ、逆変換と尤度の計算を維持する。
エンドツーエンドで学習することで、ドメイン固有の変動と共有される不変特徴を分離する。
標準的なCNNバックボーンと互換性を持つアーキテクチャを設計し、既存の認識パイプラインへのスムーズな統合を実現する。
ドメインシフトに対して特徴が不変であるよう促進するドメイン不変表現学習目的関数を設計する。
再構成損失とドメイン不変性正則化の組み合わせを用いてモデルを最適化する。

実験結果

リサーチクエスチョン

RQ1ユニバーサルNVPベースのモデルは、微調整や適応なしに未知ドメインに効果的に一般化できるか？
RQ2本手法は、数字認識、顔認識、歩行者認識などの多様な認識タスクにおいてどのように性能を発揮するか？
RQ3既存のドメイン一般化ベースラインと比較して、モデルはどの程度精度を向上させるか？
RQ4標準的なCNNアーキテクチャとエンドツーエンド認識システムにおいて、この手法はどの程度良好に統合されるか？

主な発見

提案手法は、MNIST、SVHN、MNIST-M、Extended Yale-B、CMU-PIE、CMU-MPIE、およびRGB/TIR歩行者データセットを含む、評価されたすべてのデータセットで一貫した認識精度の向上を達成する。
推論時においてドメイン固有のデータにアクセスできない状況下でも、既存のドメイン一般化技術よりも優れた性能を発揮する。
RGBと赤外線画像のようなクロスモダリティ設定を含む、多様なデータ分布において強力な一般化能力を示す。
標準CNNとNVPベースのモジュールを統合することで、エンドツーエンド認識タスクで顕著な性能向上が得られる。
顕著なドメインシフトに対してもロバスト性を維持しており、ドメイン不変特徴の有効な分離が行われていることを示している。
既存の深層学習フレームワークとの拡張性と互換性が高く、オブジェクト検出および認識タスクに容易に統合可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。