[논문 리뷰] MERIT: Multi-domain Efficient RAW Image Translation
MERIT은 단일 제너레이터로 도메인 임베딩 조건부로 임의의 카메라 도메인 간 RAW-to-RAW 번역을 수행하고, 센서 인식 노이즈 모델링과 다중 스케일 대형 커널 어텐션 기법을 도입합니다. 또한 평가용 MDRAW 데이터셋을 도입합니다.
RAW images captured by different camera sensors exhibit substantial domain shifts due to varying spectral responses, noise characteristics, and tone behaviors, complicating their direct use in downstream computer vision tasks. Prior methods address this problem by training domain-specific RAW-to-RAW translators for each source-target pair, but such approaches do not scale to real-world scenarios involving multiple types of commercial cameras. In this work, we introduce MERIT, the first unified framework for multi-domain RAW image translation, which leverages a single model to perform translations across arbitrary camera domains. To address domain-specific noise discrepancies, we propose a sensor-aware noise modeling loss that explicitly aligns the signal-dependent noise statistics of the generated images with those of the target domain. We further enhance the generator with a conditional multi-scale large kernel attention module for improved context and sensor-aware feature modeling. To facilitate standardized evaluation, we introduce MDRAW, the first dataset tailored for multi-domain RAW image translation, comprising both paired and unpaired RAW captures from five diverse camera sensors across a wide range of scenes. Extensive experiments demonstrate that MERIT outperforms prior models in both quality (5.56 dB improvement) and scalability (80% reduction in training iterations).
연구 동기 및 목표
- 여러 카메라 도메인 간의 RAW-to-RAW 번역을 1대1 매핑이 아니라 확장 가능하도록 동기를 부여한다.
- 도메인 컨디셔닝을 통해 임의의 원천 RAW 도메인과 대상 RAW 도메인 간의 번역이 가능한 단일 모델을 개발한다.
- 번역의 현실감과 충실도를 높이기 위해 센서별 노이즈 통계를 명시적으로 모델링한다.
- 더 나은 맥락 이해를 위해 다중 스케일 대형 커널 어텐션 모듈로 제너레이터를 강화한다.
- 표준화된 다중 도메인 RAW 번역 벤치마크(MDRAW)를 제공하고 우수한 성능과 학습 효율을 입증한다.
제안 방법
- 단일 제너레이터 G는 원천 도메인 a의 입력 RAW 이미지 I^a를 스타일 인코더 E가 대상 도메인 예시에서 추출한 도메인 스타일 임베딩 s_b를 사용하여 대상 도메인 b로 번역한다.
- 센서 인식 노이즈 모델링 손실 L_noise는 생성된 RAW 이미지와 실제 목표 도메인 RAW 이미지 간의 신호 의존적 노이즈 통계를 명시적으로 일치시킨다.
- 제너레이터의 다중 스케일 대형 커널 어텐션 (MS-LKA) 모듈은 서로 다른 확장도를 가진 평행 대형 커널 가지를 사용하여 특징을 업샘플링하고 그다음에 스타일 조건 채널 어텐션을 적용한다.
- 패치 기반 판별기 D를 이용한 적대적 손실은 번역된 RAW 이미지의 현실성을 보장한다.
- 사이클 일관성 L1 및 사이클-SSIM 손실은 콘텐츠 보존과 지각적 충실성을 촉진하고, 올바른 스타일 사용을 강제하기 위한 스타일 재구성 손실로 보완된다.
- MDRAW는 다섯 개의 카메라 센서에 걸친 비정렬 및 정렬 이미지를 갖는 새로운 다중 도메인 RAW 데이터셋으로 도입되어 다도메인 RAW 번역 평가를 가능하게 한다.
실험 결과
연구 질문
- RQ1단일 모델이 임의의 카메라 도메인 간 RAW 이미지를 확장 가능한 일대다/다대다 방식으로 번역할 수 있는가?
- RQ2명시적 센서 인식 노이즈 모델링이 도메인 간 RAW-to-RAW 번역의 현실감과 충실도를 높이는가?
- RQ3다중 스케일 맥락을 포착하고 도메인 인식 모듈화를 가능하게 하여 MS-LKA 모듈이 교차 도메인 번역을 향상시키는가?
- RQ4MDRAW에서 여러 도메인 방향 및 지표에 걸쳐 MERIT가 최신 기초모형 대비 어떤 성능을 보이는가?
- RQ5제안된 MDRAW 데이터셋이 다중 도메인 RAW 번역의 표준화된 평가에 효과적인가?
주요 결과
- MERIT는 교차 도메인 번역에서 PSNR이 최대 5.56 dB 향상되고 MAE가 감소하는 등 우수한 번역 품질을 달성하며, MDRAW에서 기존 모델과 비교해 우수한 성능을 보였다.
- 도메인 수가 증가해도 작은 모델 크기 (~58.7M 파라미터)와 고정 학습 예산 (~180k 반복)을 유지하며 강한 확장성을 보인다.
- 임베딩 기반 도메인 컨디셔닝이 단일 모델로 일대다 및 다대다 번역을 유연하게 가능하게 한다.
- 센서 인식 노이즈 모델링(SANM)은 특히 어려운 방향에서 MAE와 PSNR에서 상당한 이점을 제공하여 센서 특유의 노이즈 특성을 보존하는 역할을 확인시킨다.
- MS-LKA는 다중 스케일 맥락을 포착하고 스타일 가이드 채널 어텐션을 가능하게 하여 PSNR/SSIM을 더 향상시키고, cycle-SSIM 손실이 최종 성능을 최상으로 만들어 준다.
- MDRAW 벤치마크에서 MERIT는 대부분의 지표와 도메인 방향에서 두 강력한 기초모형(UVCGAN 및 Xie 등)보다 일관되게 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.