QUICK REVIEW

[論文レビュー] Perceiver IO: A General Architecture for Structured Inputs & Outputs

Andrew Jaegle, Sebastian Borgeaud|arXiv (Cornell University)|Jul 30, 2021

Human Pose and Action Recognition参考文献 98被引用数 205

ひとこと要約

Perceiver IO は、柔軟なアテンションベースのクエリメカニズムを用いて、任意の構造化入力と出力を扱える汎用的なニューラルネットワークアーキテクチャを導入し、入力および出力サイズに線形にスケーリング可能である。タスク固有のアーキテクチャ設計を必要とせず、入力のトークン化を削除しているにもかかわらず、GLUE言語ベンチマークやSintelオプティカルフローなど多様なタスクで最先端の性能を達成し、BERT や専用モデルを上回っている。

ABSTRACT

A central goal of machine learning is the development of systems that can solve many problems in as many data domains as possible. Current architectures, however, cannot be applied beyond a small set of stereotyped settings, as they bake in domain & task assumptions or scale poorly to large inputs or outputs. In this work, we propose Perceiver IO, a general-purpose architecture that handles data from arbitrary settings while scaling linearly with the size of inputs and outputs. Our model augments the Perceiver with a flexible querying mechanism that enables outputs of various sizes and semantics, doing away with the need for task-specific architecture engineering. The same architecture achieves strong results on tasks spanning natural language and visual understanding, multi-task and multi-modal reasoning, and StarCraft II. As highlights, Perceiver IO outperforms a Transformer-based BERT baseline on the GLUE language benchmark despite removing input tokenization and achieves state-of-the-art performance on Sintel optical flow estimation with no explicit mechanisms for multiscale correspondence.

研究の動機と目的

タスク固有の設計を必要とせず、多様な入力モダリティと出力構造を扱える単一のニューラルネットワークアーキテクチャの開発。
入力/出力サイズの増大に伴い性能が著しく低下する既存モデルや、モダリティ固有のアーキテクチャを必要とするモデルの限界を克服すること。
オプティカルフロー、オーディオ、記号的推論などの複雑で構造化された出力を扱うタスクにおけるエンドツーエンド学習を可能にすること。
固定サイズの潜在空間とアテンションベースのデコードを用いて、計算負荷を入力および出力サイズから分離すること。
自然言語処理、ビジョン、マルチモーダル、強化学習など複数の分野で優れた性能を示すことを実証すること。

提案手法

読み取り・処理・書き出しのアーキテクチャを採用：入力はアテンションにより固定サイズの潜在空間にエンコードされ、深層の自己アテンション層で精練され、クエリベースのアテンションによりデコードされる。
各出力が、目的の出力の意味、サイズ、構造を指定するクエリを用いて潜在空間にアテンションすることで生成される、柔軟なクエリメカニズムを採用。
出力の空間的・時間的・意味的文脈をエンコードするため、位置埋め込み（フーリエまたは学習済み）とモダリティ固有の埋め込みを用いてクエリを構築。
クエリの構成を変更することで、スカラー予測、密度フィールド、系列、集合など、任意の出力形状および構造をサポート。
入力および出力の両方に対して共通の、ドメインに依存しないバックボーンを用い、空間的・局所的構造に関するアーキテクチャ的仮定を最小限に抑える。
エンコードおよびデコードの段階で、入力トークンおよびクエリトークンに学習済みのモダリティ埋め込みを適用し、異なるモダリティを区別する。

実験結果

リサーチクエスチョン

RQ1アーキテクチャの変更なしに、多様な入力モダリティと構造化出力を扱える単一のニューラルネットワークアーキテクチャは可能か？
RQ2入力および出力サイズに線形にスケーリングしつつ、異種のタスクで高い性能を維持できるモデルの構築方法は何か？
RQ3アテンションベースのクエリメカニズムは、BERT やオプティカルフローネットワークのようなモデルにおけるタスク固有のデコーダヘッドを置き換えられるか？
RQ4統一されたアーキテクチャは、言語理解、オプティカルフロー、マルチモーダルオートエンコーディングなどのタスクで、専用モデルを上回る性能を示せるか？
RQ5クエリベースのデコードの柔軟性は、密度フィールドやマルチタスク出力の性能にどのように影響を与えるか？

主な発見

Perceiver IO は入力のトークン化を削除しているにもかかわらず、GLUEベンチマークで BERT（84.8）を上回り、平均スコア85.7を達成した。
Sintel オプティカルフローベンチマークで最先端の性能を達成し、明示的なマルチスケール対応機構を備えたモデルを上回った。
AutoFlow データセットでは、480エポックの学習後、最終的なエンド・アブソリュート誤差（EAE）が1.18に達し、以前のSOTAモデルを上回った。
Kinetics700 におけるマルチモーダルオートエンコーディングでは、動画L1損失が0.03、オーディオL1損失が1.0、分類精度が71.2%を達成し、動画・音声・ラベルの共同学習を実現した。
モデルはドメインをまたいで一般化可能である：テキスト分類から密度予測（例：オプティカルフロー）および記号的推論（例：StarCraft II）まで、アーキテクチャの変更なしに優れた性能を示した。
高解像度の入力（例：200万以上の生点）であっても、タイル化評価と重み付き平均化を用いることで性能を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。