Skip to main content
QUICK REVIEW

[논문 리뷰] VCT: A Video Compression Transformer

Fabian Mentzer, George Toderici|arXiv (Cornell University)|2022. 06. 15.
Advanced Vision and Imaging인용 수 39
한 줄 요약

본 논문은 모션 예측과 워핑을 트랜스포머 기반의 시간적 엔트로피 모델로 대체하여 프레임을 표현으로 인코딩하고 그 분포를 예측해 엔트로피 코딩을 통해 비디오를 압축함으로써 표준 데이터셋에서 건축적 편향 없이 최첨단 레이트-디스토션 성능을 달성한다.

ABSTRACT

We show how transformers can be used to vastly simplify neural video compression. Previous methods have been relying on an increasing number of architectural biases and priors, including motion prediction and warping operations, resulting in complex models. Instead, we independently map input frames to representations and use a transformer to model their dependencies, letting it predict the distribution of future representations given the past. The resulting video compression transformer outperforms previous methods on standard video compression data sets. Experiments on synthetic data show that our model learns to handle complex motion patterns such as panning, blurring and fading purely from data. Our approach is easy to implement, and we release code to facilitate future research.

연구 동기 및 목표

  • 신경망 비디오 압축에서 수작업으로 만든 아키텍처 편향을 제거하자는 동기를 제시한다.
  • 프레임 표현의 분포를 예측하기 위한 트랜스포머 기반의 시간적 엔트로피 모델을 제안한다.
  • 독립적 프레임 인코딩과 트랜스포머 기반 컨텍스트가 표준 데이터셋에서 기존의 모션 기반 방법보다 성능이 우수함을 보여준다.
  • 합성 데이터 실험을 통해 다양한 시간 패턴에 대한 강건성을 입증한다.

제안 방법

  • x_i를 이미지 인코더 E와 디코더 D를 통해 양자화된 표현 y_i로 독립적으로 인코딩한다.
  • y_i의 손실 없는 엔트로피 코딩을 위해 y_i의 조건 분포 P(y_i | y_{i-2}, y_{i-1})를 예측하기 위해 트랜스포머 기반 모델을 사용한다.
  • y_i를 블록으로 분할해 토큰을 얻고, 시간적 및 공간적 맥락을 모델링하기 위해 별도의 트랜스포머를 실행한다.
  • 세 단계로 학습한다(Stage I: E,D에 대한 RD 훈련; Stage II: 트랜스포머 기반 PMF 예측기 학습; Stage III: RD 손실 및 왜곡을 포함한 공동 미세 조정).
  • 선택적으로 잠재 잔차 예측기(LRP)를 적용해 시간적 오류를 전파하지 않고 재구성을 보강한다.

실험 결과

연구 질문

  • RQ1트랜스포머 기반의 시간적 엔트로피 모델이 뉴럴 비디오 압축에서 모션 예측과 워핑을 대체할 수 있는가?
  • RQ2두 프레임의 과거 컨텍스트와 블록 단위 자기회귀 토큰이 프레임 표현의 효과적 엔트로피 코딩을 얼마나 뒷받침할 수 있는가?
  • RQ3컨텍스트 길이와 잠재 잔차 예측이 레이트-디스트로션 성능에 미치는 영향은?
  • RQ4트랜스포머 기반 모델이 전통적 priors로 명시적으로 인코딩되지 않은 합성 시간 패턴(팬, 흐림, 페이드)에 일반화되는가?

주요 결과

  • VCT는 모션/워핑 프라이어 없이 표준 데이터셋에서 PSNR 및 MS-SSIM 측면에서 이전의 신경 비디오 압축 방법보다 우수하게 작동한다.
  • 과거 프레임 두 개를 사용하면 시간적 맥락이 없을 때에 비해 비트레이트가 크게 감소하고, 잠재 잔차 예측으로 추가 이점이 있다.
  • 이 방법은 합성 데이터의 다양한 시간 패턴(이동, 흐림, 페이드)을 모션 프라이어에 의존하는 baselines보다 더 잘 처리한다.
  • 지연/실행 분석은 TPU 기반 추론으로 다양한 해상도에서 경쟁력 있는 디코딩 속도를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.