QUICK REVIEW

[논문 리뷰] A Unified Sequence Interface for Vision Tasks

Ting Chen, Saurabh Saxena|arXiv (Cornell University)|2022. 06. 15.

Multimodal Machine Learning Applications인용 수 49

한 줄 요약

논문은 네 가지 핵심 비전 작업(객체 탐지, 인스턴스 분할, 키포인트 탐지, 이미지 캡션 작성)을 공유 토큰 기반 인터페이스와 작업 프롬pts를 이용해 픽셀-투-시퀀스 문제로 통합하는 단일 인코더–디코더 모델을 제시하며, 작업별 헤드 없이도 경쟁력 있는 성능을 달성한다.

ABSTRACT

While language tasks are naturally expressed in a single, unified, modeling framework, i.e., generating sequences of tokens, this has not been the case in computer vision. As a result, there is a proliferation of distinct architectures and loss functions for different vision tasks. In this work we show that a diverse set of "core" computer vision tasks can also be unified if formulated in terms of a shared pixel-to-sequence interface. We focus on four tasks, namely, object detection, instance segmentation, keypoint detection, and image captioning, all with diverse types of outputs, e.g., bounding boxes or dense masks. Despite that, by formulating the output of each task as a sequence of discrete tokens with a unified interface, we show that one can train a neural network with a single model architecture and loss function on all these tasks, with no task-specific customization. To solve a specific task, we use a short prompt as task description, and the sequence output adapts to the prompt so it can produce task-specific output. We show that such a model can achieve competitive performance compared to well-established task-specific models.

연구 동기 및 목표

다양한 비전 작업을 통합된 픽셀-투-시퀀스 인터페이스로 표현할 수 있음을 동기 부여하고 시연한다.
작업별 헤드 없이도 여러 작업에 적용 가능한 단일 모델 아키텍처와 손실 함수를 개발한다.
작업 프롬프트가 동일한 출력 시퀀스를 서로 다른 작업 요건에 맞게 조정할 수 있음을 보여준다.
COCO에서 다중 작업 학습이 각 작업의 성능을 경쟁력 있게 유지하는지 평가한다.

제안 방법

공유 어휘를 사용하여 바운딩 박스, 다각형, 키포인트, 캡션으로 이루어진 일련의 이산 토큰으로 각 작업을 표현한다.
비전 백본과 작업 프롬프트에 조건부로 작용하는 트랜스포머 디코더를 갖춘 인코더–디코더 아키텍처를 사용한다.
손실에서 프롬프트 토큰의 가중치를 0으로 두고 프롬프트와 출력을 하나의 시퀀스로 연결하여 학습한다.
자 autoregressive 생성 후 작업별 디-토큰화로 출력을 해석한다.
데이터 혼합 또는 배치 혼합을 통해 작업을 결합한다; 한도를 맞추기 위해 탐욕적으로 작업 가중치를 조정한다.
추론은 출력 토큰 생성을 위한 넌클리우스 샘플링을 사용하고 디-토큰화가 박스, 마스크, 키포인트, 캡션을 복원한다.

실험 결과

연구 질문

RQ1작업별 헤드 없이 하나의 픽셀-투-시퀀스 모델로 객체 탐지, 인스턴스 분할, 키포인트 탐지 및 이미지 캡션 작성이 해결될 수 있는가?
RQ2단일 모델의 성능이 COCO에서 여러 작업에 대해 전문 기반선과 비교해 어떻게 되는가?
RQ3작업 프롬프트와 학습 혼합 전략이 다중 작업 학습의 효과에 어떤 영향을 미치는가?
RQ4이미지 크기를 늘리거나 학습 가중치를 변경하면 다중 작업 성능이 향상되는가?

주요 결과

객체 탐지	인스턴스 분할	키포인트 탐지	캡션
Faster R-CNN	-	-	-
Faster R-CNN+	-	-	-
DETR	-	-	-
Mask R-CNN	39.8	37.1	63.1	-
Mask R-CNN (non-local)	45.0	40.3	66.5	-
Transformer-based captioner	-	-	-	34.3
Pix2Seq v2 single task (640×640)	43.8	37.3	68.0	33.9
Pix2Seq v2 single task (1024×1024)	45.6	38.7	67.4	34.0
Pix2Seq v2 multi-tasks (640×640)	44.2	36.9	65.0	34.3
Pix2Seq v2 multi-tasks (1024×1024)	46.5	38.2	64.8	34.9

다중 작업 모델은 네 가지 작업 모두에서 전문 아키텍처 없이 COCO에서 작업별 기본선에 비해 경쟁력 있는 결과를 달성한다.
대체로 입력 크기가 커질수록 성능이 향상되며, 키포인트 탐지는 작업별 자르기가 필요해 예외가 있다.
일관 분할의 경우 여러 시퀀스를 샘플링하고 결과 마스크를 평균화하여 예측을 향상시킬 수 있다.
적절한 작업 가중치를 갖고 모든 작업에서 학습된 단일 모델은 이 작업들을 단일 작업 변형에 근접한 성능으로 다룰 수 있다.
이 아키텍처는 공유 어휘(35k)와 단일 디코더를 사용하여 프롬프트를 통해 작업별 출력을 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.