QUICK REVIEW

[논문 리뷰] Learning Continuous Image Representation with Local Implicit Image Function

Yinbo Chen, Sifei Liu|arXiv (Cornell University)|2020. 12. 16.

Advanced Vision and Imaging참고 문헌 50인용 수 32

한 줄 요약

LIIF는 지역 잠재 코드와 공유 디코더를 사용하여 이미지를 연속 함수로 표현하고, 임의 해상도 렌더링을 가능하게 하며 크기가 다양한 실제 정답(ground-truth)을 리사이즈 없이 더 잘 처리합니다. 또한 매우 높은 스케일(×30까지)로의 외삽 extrapolation을 지원하고 이산적이고 연속적인 2D 표현 사이의 다리를 놓습니다.

ABSTRACT

How to represent an image? While the visual world is presented in a continuous manner, machines store and see the images in a discrete way with 2D arrays of pixels. In this paper, we seek to learn a continuous representation for images. Inspired by the recent progress in 3D reconstruction with implicit neural representation, we propose Local Implicit Image Function (LIIF), which takes an image coordinate and the 2D deep features around the coordinate as inputs, predicts the RGB value at a given coordinate as an output. Since the coordinates are continuous, LIIF can be presented in arbitrary resolution. To generate the continuous representation for images, we train an encoder with LIIF representation via a self-supervised task with super-resolution. The learned continuous representation can be presented in arbitrary resolution even extrapolate to x30 higher resolution, where the training tasks are not provided. We further show that LIIF representation builds a bridge between discrete and continuous representation in 2D, it naturally supports the learning tasks with size-varied image ground-truths and significantly outperforms the method with resizing the ground-truths.

연구 동기 및 목표

이미지를 고정 해상도 격자 대신 연속 함수로 표현하려는 동기를 부여합니다.
로컬 잠재 코드를 사용하고 공유 디코더를 통해 연속 RGB 예측을 가능하게 하는 LIIF를 제안합니다.
LIIF가 임의 해상도 렌더링과 학습 스케일을 넘는 외삽을 가능하게 한다는 것을 보여줍니다.
LIIF가 리사이즈 없이 크기가 다양한 ground-truth를 자연스럽게 처리하고 ground-truth 리사이즈링에 비해 충실도(Fidelity)를 향상시킵니다.

제안 방법

각 이미지를 이미지 도메인에 분포된 잠재 코드의 2D 특징 맵 M(i)로 표현합니다.
잠재 코드 z와 좌표 x를 입력으로 받아 RGB 값을 예측하는 공유 MLP 디코더 f_theta를 사용하여 x -> s 예측을 가능하게 합니다.
인접 잠재 벡터를 연결해 지역 코드를 보강하는 특징 전개(feature unfolding)을 3x3 이웃으로 적용합니다.
영역 기반 신뢰도에 의해 가중치가 부여된 네 이웃 잠재 코드 기반 예측을 결합하는 지역 앙상블로 예측 연속성을 완화합니다.
쿼리 픽셀 크기 c에 따라 디코더를 조건화하는 셀 디코딩을 도입해 임의 해상도 렌더링을 개선합니다.
LIIF 표현이 높은 해상도 ground-truth를 다운샘플 입력으로부터 예측해야 하는 자기지도 초해상도 작업으로 엔코더 E_phi를 엔드 투 엔드로 학습합니다.

실험 결과

연구 질문

RQ1연속적이고 좌표 기반의 임 implicit 표현이 자연스럽고 복잡한 이미지를 높은 충실도로 복원할 수 있는가?
RQ2,
RQ3key_findings:[
RQ4table_headers:
RQ5table_rows:[]
RQ6table_headers_translated:[]
RQ7table_rows_translated:[]
RQ8title_translated:

주요 결과

LIIF는 인-디스트리뷰션 스케일에서 업스케일링 기준선에 비해 경쟁력 있는 PSNR을 달성하고 더 큰 미지의 스케일에서 일부 기준선보다 더 우수하게 작동합니다.
로컬 앙상블과 깊은 디코딩을 갖춘 LIIF는 일부 대안보다 학습 스케일을 벗어난 고해상도 스케일(예: ×6에서 ×30)로 일반화하는 데 더 나은 성능을 보입니다.
셀 디코딩은 대규모 스케일의 시각적 품질을 향상시키며, 특히 보지 않은 고해상도 렌더링에서 PSNR 효과는 다양하게 나타날 수 있습니다.
임의의 연속 스케일(×1에서 ×4)로의 훈련은 특정 작업용 ground-truth 없이도 더 높은 해상도(×30까지)로의 외삽을 가능하게 합니다.
LIIF는 크기가-varied ground-truth를 자연스럽게 처리하며 CelebA-HQ 기반 이미지-대-이미지 작업에서 입력/출력 해상도가 다른 경우 리사이징 기반 업샘플링 방법보다 우수한 성능을 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.