QUICK REVIEW

[논문 리뷰] UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes

А. И. Колесников, André Susano Pinto|arXiv (Cornell University)|2022. 05. 20.

Advanced Neural Network Applications인용 수 23

한 줄 요약

UViM은 학습된 이산 코드를 안내하는 기본 피드포워드 모델과 그 안내 코드를 생성하는 자기회귀 언어 모델을 결합한 두 단계의 통합 비전 모델로, 태스크별 아키텍처 없이도 판옵틱 분할, 깊이 예측, 색채화에서 경쟁력 있는 결과를 제공합니다.

ABSTRACT

We introduce UViM, a unified approach capable of modeling a wide range of computer vision tasks. In contrast to previous models, UViM has the same functional form for all tasks; it requires no task-specific modifications which require extensive human expertise. The approach involves two components: (I) a base model (feed-forward) which is trained to directly predict raw vision outputs, guided by a learned discrete code and (II) a language model (autoregressive) that is trained to generate the guiding code. These components complement each other: the language model is well-suited to modeling structured interdependent data, while the base model is efficient at dealing with high-dimensional outputs. We demonstrate the effectiveness of UViM on three diverse and challenging vision tasks: panoptic segmentation, depth prediction and image colorization, where we achieve competitive and near state-of-the-art results. Our experimental results suggest that UViM is a promising candidate for a unified modeling approach in computer vision.

연구 동기 및 목표

다양한 고차원 구조화 출력 비전 과제에 대해 단일 통합 접근법을 동기 부여한다.
학습된 안내 코드 프레임워크를 도입하여 특정 태스크 아키텍처 수정 제거.
공유 베이스 모델과 자기회귀 코드 모델이 분할, 깊이, 색채화를 다룰 수 있음을 보여준다.
엔드 투 엔드 두 단계 학습이 경쟁적이며 최첨단에 근접한 결과를 낳는다는 것을 보여준다.

제안 방법

제한된 오라클이 ground truth y에서 짧은 이산 안내 코드 z를 출력하도록 하는 두 단계 학습 절차를 도입한다.
Stage II는 입력 x에서 안내 코드 z를 예측하기 위해 자기회귀 언어 모델을 학습시켜 f(x, LM(x))가 태스크를 수행하도록 한다.
VQ-VAE에서 영감을 얻은 이산 병목을 사용하여 z를 학습하고, 코드북 엔트리의 과소활용을 방지하기 위해 LBFGS 유사의 딕셔너리 학습 업데이트를 적용한다.
ViT로 f와 제한된 오라클 Omega를 매개화한다; LM은 ViT 인코더와 트랜스포머 디코더를 가진 인코더-디코더 트랜스포머다.
Stage I에서 엔드 투 엔드로 공동 학습하고, Stage II에서 Omega의 출력을 모방하도록 LM을 학습한다; 테스트 시 z = LM(x)를 계산하고 y = f(x, z)를 예측한다.
Stage II에서 코드 드롭아웃을 논의하여 학습 중 z의 일부를 무작위로 0으로 만들어 강건성을 향상시킨다.

실험 결과

연구 질문

RQ1단일하고 균일한 모델링 프레임워크가 고차원 구조화 출력을 갖는 다양한 시각 과제에서 경쟁력 있는 결과를 낼 수 있는가?
RQ2학습된 안내 코드와 자기회귀 LM을 도입하면 태스크별 수정 없이도 복잡한 출력 의존성을 효율적으로 모델링할 수 있는가?
RQ3두 단계 학습(오라클 가이드 베이스 모델 플러스 LM 생성 가이드 코드)이 판옵틱 분할, 깊이 추정, 색채화 전반에 걸쳐 일반화되는 정도는 어느 정도인가?
RQ4Stage I의 가이드 코드 길이와 사전 크기의 트레이드오프는 무엇이며 코드 드롭아웃과 자기회귀 모델링은 최종 성능에 어떤 영향을 주는가?

주요 결과

UViM은 태스크 특화 아키텍처 없이도 세 가지 다른 태스크에서 경쟁력 있는 결과를 달성한다(판옵틱 분할, 깊이 예측, 색채화).
제한된 오라클과 VQ-VAE 유사 이산 병목을 갖춘 Stage I은 가이드 코드를 활용할 때 기본 모델이 고차원 구조화 출력을 해결하도록 한다.
Stage II는 이미지에서 가이드 코드를 예측하기 위해 자기회귀 LM을 학습시켜 단일 파이프라인으로 다양한 태스크를 처리하는 통합 모델을 가능하게 한다.
가이드 코드의 자기회귀 모듈이 없으면 성능 저하가 큰 것으로 나타나며, 자기회귀 모델링은 중요한 역할을 한다.
사전 학습 가중치와 코드 드롭아웃은 최종 성능과 강건성을 향상시키며, 무사전 학습은 경쟁력이 있으나 다소 느리다.
코드 길이와 사전 크기는 성능에 영향을 미치며, 더 긴 시퀀스와 더 큰 사전이 Stage I에 도움을 주고 최종 모델에 이상적 포인트가 있다.
태스크 특화 기초 baselines와 비교했을 때, UViM은 평가된 태스크에서 근접한 최첨단이며 강한 전이성 및 일반성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.