QUICK REVIEW

[論文レビュー] Domain Generalization with MixStyle

Kaiyang Zhou, Yongxin Yang|arXiv (Cornell University)|Apr 5, 2021

Domain Adaptation and Few-Shot Learning参考文献 56被引用数 41

ひとこと要約

MixStyleは、ドメイン間でインスタンスレベルの特徴統計を probabilistically mixing across domains across unseen domains without explicit image synthesis を用いてCNN訓練を正則化することで、未知のドメインへの一般化を改善します。分類・検索・強化学習のDGタスクで強力な改善をもたらします。

ABSTRACT

Though convolutional neural networks (CNNs) have demonstrated remarkable ability in learning discriminative features, they often generalize poorly to unseen domains. Domain generalization aims to address this problem by learning from a set of source domains a model that is generalizable to any unseen domain. In this paper, a novel approach is proposed based on probabilistically mixing instance-level feature statistics of training samples across source domains. Our method, termed MixStyle, is motivated by the observation that visual domain is closely related to image style (e.g., photo vs.~sketch images). Such style information is captured by the bottom layers of a CNN where our proposed style-mixing takes place. Mixing styles of training instances results in novel domains being synthesized implicitly, which increase the domain diversity of the source domains, and hence the generalizability of the trained model. MixStyle fits into mini-batch training perfectly and is extremely easy to implement. The effectiveness of MixStyle is demonstrated on a wide range of tasks including category classification, instance retrieval and reinforcement learning.

研究の動機と目的

視覚領域のドメインシフトに対処するため、複数のソースドメインからドメイン不変な特徴を学習する。
スタイル統計をインスタンス間で混合することで訓練を補助する、軽量でプラグアンドプレイのモジュールを提案する。
分類、検索、強化学習タスクでDGの改善を実証する。
新しい画像を生成することなく暗黙的なスタイル混合が一般化を向上させることを示す。

提案手法

CNN層の間にMixStyleを挿入して下位特徴マップのスタイル統計を摂動する。
異なるドメインから2つのインスタンスをサンプルし、Beta分布の重み（alphaハイパーパラメータ）を用いた凸結合で混合統計を形成する。
元のバッチ統計と参照バッチ統計から混合統計gamma_mixとbeta_mixを計算し、スタイル正規化された特徴に適用する。
訓練時にはBernoulli(0.5)でMixStyleを活性化する；テスト時にはMixStyleはなし；勾配は統計量でストップグラデーションをかけつつ平均/分散の計算を通じて流れる。
スタイルと内容情報のバランスを考慮して残差ブロック全体にわたるMixStyleの配置を議論し、ランダムシャッフルとドメインラベル付きシャッフルのablationsを報告する。

実験結果

リサーチクエスチョン

RQ1MixStyleは特徴レベルでスタイルの多様性を増強することでドメイン一般化を改善できるか？
RQ2ネットワークのどの箇所にMixStyleを適用すれば最も良いドメイン一般化性能を得られるか？
RQ3標準的なDGベンチマークでピクセルレベルデータ増強や他のDG手法と比較してMixStyleはどうか？
RQ4分類だけでなく、インスタンス検索や強化学習などのタスクでもMixStyleは有効か？

主な発見

MixStyleは、PACSでVanilla ResNet-18より一般化を一貫して改善し、MixupとDropBlockのベースラインを上回る。
乱数シャッフルまたはドメインラベル付きのMixStyleは、PACSでそれぞれ82.8%と83.7%の平均精度を達成し、多くの先行DG手法を上回る。
複数の下位レイヤーにMixStyleを適用すると性能が向上するが、最後のブロックに適用すると性能が低下する。これは意味的内容がそこで捉えられている可能性がある。
MixStyleはL2A-OTのようなピクセルレベルの増強法よりDGタスクで優れており、計算的にははるかに軽量。
クロスデータセットの人物再識別では、ランダムシャッフルまたはドメインラベル付きのMixStyleが市場データセットMarket1501とDukeのベースラインを上回る。mAP/R1/R5/R10の向上。
強化学習において、MixStyleは見たことのない環境への一般化を改善し、IBAC-SNIを補完する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。