[논문 리뷰] UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes
UViM은 학습된 이산 코드를 안내하는 기본 피드포워드 모델과 그 안내 코드를 생성하는 자기회귀 언어 모델을 결합한 두 단계의 통합 비전 모델로, 태스크별 아키텍처 없이도 판옵틱 분할, 깊이 예측, 색채화에서 경쟁력 있는 결과를 제공합니다.
We introduce UViM, a unified approach capable of modeling a wide range of computer vision tasks. In contrast to previous models, UViM has the same functional form for all tasks; it requires no task-specific modifications which require extensive human expertise. The approach involves two components: (I) a base model (feed-forward) which is trained to directly predict raw vision outputs, guided by a learned discrete code and (II) a language model (autoregressive) that is trained to generate the guiding code. These components complement each other: the language model is well-suited to modeling structured interdependent data, while the base model is efficient at dealing with high-dimensional outputs. We demonstrate the effectiveness of UViM on three diverse and challenging vision tasks: panoptic segmentation, depth prediction and image colorization, where we achieve competitive and near state-of-the-art results. Our experimental results suggest that UViM is a promising candidate for a unified modeling approach in computer vision.
연구 동기 및 목표
- 다양한 고차원 구조화 출력 비전 과제에 대해 단일 통합 접근법을 동기 부여한다.
- 학습된 안내 코드 프레임워크를 도입하여 특정 태스크 아키텍처 수정 제거.
- 공유 베이스 모델과 자기회귀 코드 모델이 분할, 깊이, 색채화를 다룰 수 있음을 보여준다.
- 엔드 투 엔드 두 단계 학습이 경쟁적이며 최첨단에 근접한 결과를 낳는다는 것을 보여준다.
제안 방법
- 제한된 오라클이 ground truth y에서 짧은 이산 안내 코드 z를 출력하도록 하는 두 단계 학습 절차를 도입한다.
- Stage II는 입력 x에서 안내 코드 z를 예측하기 위해 자기회귀 언어 모델을 학습시켜 f(x, LM(x))가 태스크를 수행하도록 한다.
- VQ-VAE에서 영감을 얻은 이산 병목을 사용하여 z를 학습하고, 코드북 엔트리의 과소활용을 방지하기 위해 LBFGS 유사의 딕셔너리 학습 업데이트를 적용한다.
- ViT로 f와 제한된 오라클 Omega를 매개화한다; LM은 ViT 인코더와 트랜스포머 디코더를 가진 인코더-디코더 트랜스포머다.
- Stage I에서 엔드 투 엔드로 공동 학습하고, Stage II에서 Omega의 출력을 모방하도록 LM을 학습한다; 테스트 시 z = LM(x)를 계산하고 y = f(x, z)를 예측한다.
- Stage II에서 코드 드롭아웃을 논의하여 학습 중 z의 일부를 무작위로 0으로 만들어 강건성을 향상시킨다.
실험 결과
연구 질문
- RQ1단일하고 균일한 모델링 프레임워크가 고차원 구조화 출력을 갖는 다양한 시각 과제에서 경쟁력 있는 결과를 낼 수 있는가?
- RQ2학습된 안내 코드와 자기회귀 LM을 도입하면 태스크별 수정 없이도 복잡한 출력 의존성을 효율적으로 모델링할 수 있는가?
- RQ3두 단계 학습(오라클 가이드 베이스 모델 플러스 LM 생성 가이드 코드)이 판옵틱 분할, 깊이 추정, 색채화 전반에 걸쳐 일반화되는 정도는 어느 정도인가?
- RQ4Stage I의 가이드 코드 길이와 사전 크기의 트레이드오프는 무엇이며 코드 드롭아웃과 자기회귀 모델링은 최종 성능에 어떤 영향을 주는가?
주요 결과
- UViM은 태스크 특화 아키텍처 없이도 세 가지 다른 태스크에서 경쟁력 있는 결과를 달성한다(판옵틱 분할, 깊이 예측, 색채화).
- 제한된 오라클과 VQ-VAE 유사 이산 병목을 갖춘 Stage I은 가이드 코드를 활용할 때 기본 모델이 고차원 구조화 출력을 해결하도록 한다.
- Stage II는 이미지에서 가이드 코드를 예측하기 위해 자기회귀 LM을 학습시켜 단일 파이프라인으로 다양한 태스크를 처리하는 통합 모델을 가능하게 한다.
- 가이드 코드의 자기회귀 모듈이 없으면 성능 저하가 큰 것으로 나타나며, 자기회귀 모델링은 중요한 역할을 한다.
- 사전 학습 가중치와 코드 드롭아웃은 최종 성능과 강건성을 향상시키며, 무사전 학습은 경쟁력이 있으나 다소 느리다.
- 코드 길이와 사전 크기는 성능에 영향을 미치며, 더 긴 시퀀스와 더 큰 사전이 Stage I에 도움을 주고 최종 모델에 이상적 포인트가 있다.
- 태스크 특화 기초 baselines와 비교했을 때, UViM은 평가된 태스크에서 근접한 최첨단이며 강한 전이성 및 일반성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.