[論文レビュー] Attention-Aware Face Hallucination via Deep Reinforcement Learning
本論文では、再帰的方策ネットワークを用いて文脈的に関連する領域に注目することで、顔の部分を段階的に強化する、深層強化学習フレームワークAttention-FHを提案する。長期的なグローバル報酬を用いて方策ネットワークと強化ネットワークを共同最適化することで、大きなポーズや照明変動を伴うリアルワールドの顔画像において、最先端の性能を達成する。
Face hallucination is a domain-specific super-resolution problem with the goal to generate high-resolution (HR) faces from low-resolution (LR) input images. In contrast to existing methods that often learn a single patch-to-patch mapping from LR to HR images and are regardless of the contextual interdependency between patches, we propose a novel Attention-aware Face Hallucination (Attention-FH) framework which resorts to deep reinforcement learning for sequentially discovering attended patches and then performing the facial part enhancement by fully exploiting the global interdependency of the image. Specifically, in each time step, the recurrent policy network is proposed to dynamically specify a new attended region by incorporating what happened in the past. The state (i.e., face hallucination result for the whole image) can thus be exploited and updated by the local enhancement network on the selected region. The Attention-FH approach jointly learns the recurrent policy network and local enhancement network through maximizing the long-term reward that reflects the hallucination performance over the whole image. Therefore, our proposed Attention-FH is capable of adaptively personalizing an optimal searching path for each face image according to its own characteristic. Extensive experiments show our approach significantly surpasses the state-of-the-arts on in-the-wild faces with large pose and illumination variations.
研究の動機と目的
- 既存の顔ハリュウエーション手法がパッチを独立して処理し、顔の部分間の文脈的依存関係を無視するという限界を解決すること。
- 人間の視覚的注目を模倣した段階的意思決定プロセスとして顔ハリュウエーションをモデル化し、各ステップで関連する顔領域に注目すること。
- 深層強化学習を活用して、領域選択のための再帰的方策ネットワークと、超解像のための局所的強化ネットワークを共同最適化すること。
- 各強化ステップにグローバルな文脈と、以前に強化された領域の履歴を組み込むことで、ハリュウエーションの品質を向上させること。
- 大きなポーズや照明変動を伴う非制約的、リアルワールドの顔データセットにおいて、優れた性能を達成すること。
提案手法
- LSTMに基づく再帰的方策ネットワークを用い、現在の顔全体の状態と過去の行動に条件づけて、次に強化する顔領域を動的に選択する。
- 状態を、各局所的強化操作後に段階的に更新される現在のハリュウエーション画像として定義する。
- 選択されたパッチに対して、顔の部分の品質に基づく損失関数を用いる8層のCNNによる局所的強化ネットワークを採用する。
- エージェントが全体のハリュウエーション性能を反映するグローバル報酬を最大化するように、問題をマルコフ決定過程(MDP)として定式化する。
- ポリシー勾配法を用いて強化学習により、長期報酬が最適化を形作る中で、方策ネットワークと強化ネットワークを共同で学習する。
- 過去の行動を記録することで、重複や生産性のない注目サイクルを防ぎ、学習の安定性と収束性を向上させる。
実験結果
リサーチクエスチョン
- RQ1強化学習に基づく段階的注目メカニズムは、顔の部分間の相関関係をモデル化することで、顔ハリュウエーションを改善できるか?
- RQ2グローバルな文脈と、以前に強化された領域の履歴を組み込むことで、超解像された顔の品質はどのように変化するか?
- RQ3学習された注目ポリシーを用いることで、ランダム選択や固定パッチ選択戦略に比べて顔ハリュウエーションで優れた性能が得られるか?
- RQ4提案手法は、大きなポーズや照明変動を伴うリアルワールドの顔画像にどの程度一般化可能か?
- RQ5段階的ハリュウエーションにおいて、強化学習ベースのアプローチは、エンドツーエンドのバックプロパゲーション手法と比べてどの程度優れているか?
主な発見
- 提案されたAttention-FHフレームワークは、LFWデータセットにおいて最先端の性能を達成し、4×および8×の超解像タスクでそれぞれ0.67 dBおよび0.46 dBの優位性を示した。
- 学習されたポリシーではなくランダムにパッチを選択すると、4×および8×の超解像タスクでそれぞれ1.33 dBおよび0.41 dBの性能低下が生じ、注目メカニズムの有効性が裏付けられた。
- 強化の履歴がないまま、元の低解像度画像のみを方策ネットワークの入力とする場合、4×および8×タスクでそれぞれ0.83 dBおよび0.25 dBの低下が生じ、文脈フィードバックの重要性が確認された。
- 強化学習を用いたモデルは、空間変換ネットワークを用いたエンドツーエンドのバックプロパゲーションベースラインを著しく上回り、長期報酬の形状が優位性をもたらすことが示された。
- エージェントが生成する注目シーケンスは人間の注目パターンに類似しており、まず背景領域を強化し、次に顔の部品(耳、目、鼻、口)を処理し、最後に高周波数の詳細を精緻化する。
- 複数回のパスを経ても、計算コストは低く抑えられており、1枚の128×128画像をTITAN Xで約1.5秒で処理できる。これは、VDSRのような1パス法と同等の速度である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。