[논문 리뷰] Attention-Aware Face Hallucination via Deep Reinforcement Learning
이 논문은 순차적으로 관련 있는 영역에 주목함으로써 재귀 정책 네트워크를 사용해 문맥적으로 관련된 영역을 고려하여 얼굴 부분을 단계적으로 향상시키는 딥 강화학습 프레임워크인 Attention-FH를 제안한다. 장기적 전역 보상과 함께 정책 및 향상 네트워크를 동시에 최적화함으로써, 큰 자세 및 조명 변화가 있는 실생활 얼굴에 대해 최신 기술 수준의 성능을 달성한다.
Face hallucination is a domain-specific super-resolution problem with the goal to generate high-resolution (HR) faces from low-resolution (LR) input images. In contrast to existing methods that often learn a single patch-to-patch mapping from LR to HR images and are regardless of the contextual interdependency between patches, we propose a novel Attention-aware Face Hallucination (Attention-FH) framework which resorts to deep reinforcement learning for sequentially discovering attended patches and then performing the facial part enhancement by fully exploiting the global interdependency of the image. Specifically, in each time step, the recurrent policy network is proposed to dynamically specify a new attended region by incorporating what happened in the past. The state (i.e., face hallucination result for the whole image) can thus be exploited and updated by the local enhancement network on the selected region. The Attention-FH approach jointly learns the recurrent policy network and local enhancement network through maximizing the long-term reward that reflects the hallucination performance over the whole image. Therefore, our proposed Attention-FH is capable of adaptively personalizing an optimal searching path for each face image according to its own characteristic. Extensive experiments show our approach significantly surpasses the state-of-the-arts on in-the-wild faces with large pose and illumination variations.
연구 동기 및 목표
- 기존 얼굴 홀로그래피 방법이 패치를 독립적으로 다루며 얼굴 부분 간의 맥락적 의존성을 忽시하는 한계를 해결한다.
- 인간 시각 주의를 영감으로 삼아, 각 단계에서 관련 있는 얼굴 영역에 집중하는 순차적 의사결정 과정으로 얼굴 홀로그래피를 모델링한다.
- 딥 강화학습을 활용해 영역 선택을 위한 재귀 정책 네트워크와 초해상도를 위한 국소 향상 네트워크를 함께 최적화한다.
- 각 향상 단계에 전에 향상된 영역의 역사와 전역 맥락을 통합하여 홀로그래피 품질을 향상시킨다.
- 큰 자세 및 조명 변화가 있는 제약 없는 실생활 얼굴 데이터셋에서 뛰어난 성능을 달성한다.
제안 방법
- LSTM 기반의 재귀 정책 네트워크를 사용해 현재 얼굴 상태와 과거 행동에 따라 다음으로 향상할 얼굴 영역을 동적으로 선택한다.
- 상태를 현재 홀로그래피된 얼굴 이미지로 정의하며, 각 국소 향상 작업 후에 점진적으로 갱신된다.
- 선택된 패치에서 초해상도를 수행하기 위해 국소 향상 네트워크(8층 CNN)를 사용하며, 손실은 얼굴 부분의 품질 기반으로 정의된다.
- 에이전트가 전반적인 홀로그래피 성능를 반영하는 전역 보상을 최대화하는 마르코프 결정 과정(MDP)으로 문제를 설정한다.
- 정책 기반 강화학습을 통해 정책 및 향상 네트워크를 함께 훈련시키며, 장기적 보상이 최적화를 이끄는 데 사용된다.
- 과거 행동을 기억하여 반복적이거나 생산적이지 않은 주의 사이클을 방지함으로써 훈련 안정성과 수렴성을 향상시킨다.
실험 결과
연구 질문
- RQ1강화학습 기반의 순차적 주의 메커니즘이 얼굴 부분 간 상호의존성을 모델링함으로써 얼굴 홀로그래피 성능을 향상시킬 수 있는가?
- RQ2이전에 향상된 영역의 역사와 전역 맥락을 통합할 경우 초해상도 얼굴의 품질에 어떤 영향을 미치는가?
- RQ3학습된 주의 정책이 무작위 또는 고정된 패치 선택 전략보다 얼굴 홀로그래피에서 더 우수한 성능을 내는가?
- RQ4제안된 방법이 큰 자세 및 조명 변화가 있는 실생활 얼굴에 얼마나 일반화되는가?
- RQ5강화학습 기반 접근법이 순차적 홀로그래피에서 엔드 투 엔드 백프로파게이션 방법보다 성능 면에서 어떻게 비교되는가?
주요 결과
- 제안된 Attention-FH 프레임워크는 LFW 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 4× 및 8× 초해상도 작업에서 각각 0.67 dB와 0.46 dB의 성능 향상을 보였다.
- 학습된 정책 대신 무작위 패치 선택을 사용할 경우 4× 및 8× 초해상도에서 각각 1.33 dB와 0.41 dB의 성능 저하가 발생하여 주의 메커니즘의 효과성을 입증하였다.
- 이전 향상 없이 원본 저해상도 이미지만을 정책 네트워크의 입력으로 사용할 경우 4× 및 8× 작업에서 각각 0.83 dB와 0.25 dB의 성능 저하가 발생하여 맥락 피드백의 중요성을 확인하였다.
- 강화학습 기반 모델은 공간 변환 네트워크를 사용한 엔드 투 엔드 백프로파게이션 기반 베이스라인보다 뚜렷이 우수한 성능을 보였으며, 장기적 보상 설계의 이점을 입증하였다.
- 에이전트가 생성한 주의 순서는 인간과 유사한 패턴을 따르며, 먼저 평평한 배경 영역을 향상시키고, 그 다음로 얼굴 구성요소(귀, 눈, 코, 입)를 처리한 후, 고주파 수준의 세부 정보를 정밀하게 보정한다.
- 다중 루프를 거치더라도 계산 효율성이 유지되며, TITAN X에서 단일 128×128 이미지 처리에 약 1.5초가 소요되어 VDSR와 같은 단일 루프 방법과 유사한 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.