[論文レビュー] Batch-Instance Normalization for Adaptively Style-Invariant Neural Networks
BIN は適応的にバッチ正規化とインスタンス正規化をバランスさせ、役立つスタイルを選択的に保持して邪魔になるスタイルを正規化し、分類、マルチドメイン学習、およびスタイル転送における認識を改善します。
Real-world image recognition is often challenged by the variability of visual styles including object textures, lighting conditions, filter effects, etc. Although these variations have been deemed to be implicitly handled by more training data and deeper networks, recent advances in image style transfer suggest that it is also possible to explicitly manipulate the style information. Extending this idea to general visual recognition problems, we present Batch-Instance Normalization (BIN) to explicitly normalize unnecessary styles from images. Considering certain style features play an essential role in discriminative tasks, BIN learns to selectively normalize only disturbing styles while preserving useful styles. The proposed normalization module is easily incorporated into existing network architectures such as Residual Networks, and surprisingly improves the recognition performance in various scenarios. Furthermore, experiments verify that BIN effectively adapts to completely different tasks like object classification and style transfer, by controlling the trade-off between preserving and removing style variations. BIN can be implemented with only a few lines of code using popular deep learning frameworks.
研究の動機と目的
- スタイルのばらつきが実世界の認識タスクを妨げる問題を動機づける。
- 特徴マップごとにスタイルを選択的に正規化する Batch-Instance Normalization (BIN) を提案する。
- BIN が分類、マルチドメイン学習、スタイル転送の性能を向上させることを示す。
- BIN のアーキテクチャ間・タスク間でのスケーラビリティを実証する。
提案手法
- BN と IN の重み付き結合として BIN を、チャネルごとに学習可能なゲートベクトル ρ ∈ [0,1]^C を定義する。
- BIN の出力を y = (ρ ⊙ x̂(B) + (1−ρ) ⊙ x̂(I)) γ + β として計算する。ここで x̂(B) と x̂(I) は BN と IN 正規化特徴。
- ρ を勾配更新で訓練し [0,1] にクリップする。しばしば BN−IN の差を増幅するために学習率を高く設定する。
- 初期化 ρ = 1 とアフィン変換の γ, β を学習する。
- BIN は既存のアーキテクチャに最小限の追加パラメータで BN/IN の代替として置換可能であることを示す。
- object分類、マルチドメイン学習、画像スタイル転送で BIN を評価する。
実験結果
リサーチクエスチョン
- RQ1BIN はスタイルを選択的に正規化することで、一般的なオブジェクト分類データセット(CIFAR-10/100, ImageNet)において標準の BN を上回ることができるか。
- RQ2BIN はマルチドメイン学習およびドメイン適応設定で性能を改善するか。
- RQ3 BIN はスタイル転送の IN の代替として有効で、役立つスタイルを保持するか。
- RQ4学習された ρ ゲートは層やタスク間でどのように分布し、BIN はアーキテクチャ間でどのようにスケールするか。
主な発見
| 方法 | CIFAR-10 | CIFAR-100 | ImageNet |
|---|---|---|---|
| BN | 93.72 ± 0.18 | 74.26 ± 0.33 | 69.89 |
| BIN | 94.29 ± 0.09 | 75.88 ± 0.30 | 70.68 |
- BIN は CIFAR-10/100 および ImageNet で BN を上回る(Top-1 accuracy: CIFAR-10 93.72→94.29, CIFAR-100 74.26→75.88, ImageNet 69.89→70.68)。
- BIN のゲート値は双峰性になる傾向があり、分類タスクでは上位層で多くのチャネルが BN(ρ≈1)に、下位層で IN(ρ≈0)に傾く。
- BIN は diverse なアーキテクチャ(AlexNet、VGG、ResNet、ResNeXt、DenseNet)で CIFAR-100 の性能を一貫して向上させる。
- Office-Home のマルチドメイン分類では BIN が BN より平均精度を向上(80.08 対 78.95)。
- DANN を用いた Office-Home のドメイン適応では、ほとんどの転移タスクで BN を上回るか、わずかに及ぶ(11/12)。
- スタイル転送では BIN は BN+IN より内容の保持性が高く、IN に対する品質は同等/スタイル転送品質も妥協なく、望ましいスタイルの喪失を抑える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。