QUICK REVIEW

[논문 리뷰] Perceiver IO: A General Architecture for Structured Inputs & Outputs

Andrew Jaegle, Sebastian Borgeaud|arXiv (Cornell University)|2021. 07. 30.

Human Pose and Action Recognition참고 문헌 98인용 수 205

한 줄 요약

Perceiver IO는 입력과 출력의 구조를 임의로 처리할 수 있는 일반 목적의 신경망 아키텍처를 도입하며, 유연한 어텐션 기반 쿼리 메커니즘을 사용해 입력 및 출력 크기와 선형적으로 확장된다. 이는 태스크별 아키텍처 설계 없이도 다양한 작업—GLUE 언어 벤치마크 및 Sintel 광학 흐름—에서 최신 기술 수준의 성능을 달성하며, 입력 토큰화를 제거했음에도 불구하고 BERT 및 전용 모델을 능가한다.

ABSTRACT

A central goal of machine learning is the development of systems that can solve many problems in as many data domains as possible. Current architectures, however, cannot be applied beyond a small set of stereotyped settings, as they bake in domain & task assumptions or scale poorly to large inputs or outputs. In this work, we propose Perceiver IO, a general-purpose architecture that handles data from arbitrary settings while scaling linearly with the size of inputs and outputs. Our model augments the Perceiver with a flexible querying mechanism that enables outputs of various sizes and semantics, doing away with the need for task-specific architecture engineering. The same architecture achieves strong results on tasks spanning natural language and visual understanding, multi-task and multi-modal reasoning, and StarCraft II. As highlights, Perceiver IO outperforms a Transformer-based BERT baseline on the GLUE language benchmark despite removing input tokenization and achieves state-of-the-art performance on Sintel optical flow estimation with no explicit mechanisms for multiscale correspondence.

연구 동기 및 목표

다양한 입력 모odal리티와 출력 구조에 일반화되는 단일 신경망 아키텍처를 개발한다. 이는 태스크별 엔지니어링 없이도 가능하다.
기존 모델이 입력/출력 크기 증가에 따라 성능이 급격히 떨어지거나 모odal리티별 전용 아키텍처가 필요로 하는 한계를 해결한다.
광학 흐름, 오디오, 기호적 추론과 같은 복잡한 구조적 출력을 갖는 태스크에 대해 엔드 투 엔드 학습을 가능하게 한다.
고정 크기의 잠재 공간과 어텐션 기반 디코딩을 통해 계산 부담을 입력 및 출력 크기에서 분리한다.
자연어, 비전, 다중모달, 강화 학습 태스크 등 다양한 분야에서 뛰어난 성능을 보여준다.

제안 방법

읽기-처리-쓰기 아키텍처를 사용한다: 입력은 어텐션을 통해 고정 크기의 잠재 공간으로 인코딩되고, 깊은 수준의 자기어텐션 레이어를 거쳐 개선되며, 쿼리 기반 어텐션을 통해 디코딩된다.
각 출력은 출력의 의미, 크기, 구조를 지정하는 쿼리를 사용해 잠재 공간에 어텐션을 통해 생성된다. 이는 탄력적인 쿼리 메커니즘을 제공한다.
출력의 공간적, 시간적, 또는 의미적 맥락을 인코딩하기 위해 위치 임베딩(Fourier 또는 학습된)과 모달리티별 임베딩을 사용해 쿼리를 구성한다.
쿼리 조합을 다양화함으로써 스칼라 예측, 조밀한 필드, 시퀀스, 집합 등 임의의 출력 형태와 구조를 지원한다.
모든 입력과 출력에 대해 공통의, 도메인에 관계없는 백본을 사용함으로써 공간적 또는 국소성 구조에 대한 아키텍처 가정을 최소화한다.
입력 토큰과 쿼리 토큰에 대해 학습된 모달리티 임베딩을 적용해 인코딩 및 디코딩 과정에서 다양한 모달리티를 구분한다.

실험 결과

연구 질문

RQ1단일 신경망 아키텍처가 아키텍처 변경 없이 다양한 입력 모달리티와 구조적 출력을 처리할 수 있는가?
RQ2입력 및 출력 크기와 선형적으로 확장되면서도 이질적인 태스크 전반에서 높은 성능을 유지할 수 있는가?
RQ3어텐션 기반 쿼리 메커니즘이 BERT나 광학 흐름 네트워크와 같은 모델에서 태스크별 디코더 헤드를 대체할 수 있는가?
RQ4통합 아키텍처가 언어 이해, 광학 흐름, 다중모달 오토인코딩과 같은 태스크에서 전용 모델을 능가할 수 있는가?
RQ5쿼리 기반 디코딩의 탄력성은 조밀한 출력 및 다중태스크 출력에서 성능에 어떤 영향을 미치는가?

주요 결과

Perceiver IO는 입력 토큰화를 제거했음에도 불구하고 GLUE 벤치마크에서 BERT(84.8)를 능가하며 평균 점수 85.7을 기록했다.
Sintel 광학 흐름 벤치마크에서 다중 척도 대응 메커니즘을 내장한 모델들을 능가하는 최신 기술 수준의 성능을 달성했다.
AutoFlow 데이터셋에서 480 에포크 학습 후 최종 종단 절대 오차(EAE) 1.18을 기록했으며, 이는 이전 최신 기술 수준 모델을 초월했다.
Kinetics700에서의 다중모달 오토인코딩 태스크에서 영상 L1 손실 0.03, 오디오 L1 손실 1.0, 분류 정확도 71.2%를 기록해 영상, 오디오, 레이블의 동시 학습을 입증했다.
모델은 도메인 간 일반화가 뛰어나며, 텍스트 분류에서부터 조밀한 예측(예: 광학 흐름) 및 기호적 추론(예: StarCraft II)에 이르기까지 아키텍처 수정 없이도 뛰어난 성능을 보였다.
고해상도 입력(예: 200만 개 이상의 원시 포인트)에도 불구하고 타일 기반 평가와 겹치는 타일 예측의 가중 평균을 통해 성능 유지가 가능했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.