QUICK REVIEW

[論文レビュー] You Only Learn One Representation: Unified Network for Multiple Tasks

Chien-Yao Wang, I-Hau Yeh|arXiv (Cornell University)|May 10, 2021

Neural Networks and Applications参考文献 16被引用数 388

ひとこと要約

この論文は、暗黙の知識（学習された潜在意識的知識）と明示の知識（観測と一致する知識）を統合する統一ネットワークを提案し、単一モデル内で複数のタスクを処理することで、最小限のパラメータ/コストオーバーヘッドで性能を向上させます。カーネル空間の整列、予測の洗練、および暗黙表現を通じた多タスク学習を実装します。

ABSTRACT

People ``understand'' the world via vision, hearing, tactile, and also the past experience. Human experience can be learned through normal learning (we call it explicit knowledge), or subconsciously (we call it implicit knowledge). These experiences learned through normal learning or subconsciously will be encoded and stored in the brain. Using these abundant experience as a huge database, human beings can effectively process data, even they were unseen beforehand. In this paper, we propose a unified network to encode implicit knowledge and explicit knowledge together, just like the human brain can learn knowledge from normal learning as well as subconsciousness learning. The unified network can generate a unified representation to simultaneously serve various tasks. We can perform kernel space alignment, prediction refinement, and multi-task learning in a convolutional neural network. The results demonstrate that when implicit knowledge is introduced into the neural network, it benefits the performance of all tasks. We further analyze the implicit representation learnt from the proposed unified network, and it shows great capability on catching the physical meaning of different tasks. The source code of this work is at : https://github.com/WongKinYiu/yolor.

研究の動機と目的

訓練中に学習された暗黙知識を活用して、複数タスクを処理できる単一のネットワークを構築する動機づけ。
明示の観測と整合する特徴と暗黙の潜在知識を混合する統一表現を導入する。
暗黙知識を取り入れることで、パラメータ増加を最小限に抑えつつタスク間の性能が向上することを示す。
カーネル空間を整列させる手法と、マルチタスク環境での予測洗練を示す。
物体検出、マルチラベル分類、特徴埋め込みでのアプローチを評価する。
ベクトル、ニューラルネットワーク、または行列因数分解を介して暗黙知識をモデル化する方法論を示すこと。

提案手法

明示的知識を観測に直接結びついた特徴、暗黙知識をタスクに依存しない潜在表現と定義する。
共通の明示表現 f_theta(x) をタスク固有の暗黙表現 g_phi(z) と、加算・乗算・結合などの操作を用いて組み合わせる統一ネットワークを導入する。
従来の誤差と暗黙-明示知識項の和を最小化する形で訓練を定式化し、単一の表現が複数タスクをサポートできるようにする。
ベクトル、ニューラルネットワーク、または行列因子分解の形式で暗黙知識をモデル化し、事前分布を小さく設定し、推論時には z が定数テンソルであるため推論時の簡略化を許容する。
出力カーネルを翻訳/回転/拡大するためにカーネル空間整列を適用し、マルチタスク空間を整合させる；暗黙知識の枠組み内で予測の洗練とマルチタスク学習を適用する。
FPN特徴の整列、YOLO出力での予測の洗練、標準的なマルチタスク表現を用いた実験を行い、演算子とモデリング手法を比較して性能向上を評価する。

実験結果

リサーチクエスチョン

RQ1単一の統一ネットワークが暗黙知識と明示知識を統合することで複数タスクをサポートする一般表現を学習できるか。
RQ2暗黙表現をどのようにモデリング・統合（ベクトル、ニューラルネットワーク、行列因子分解）してマルチタスク性能を改善できるか。
RQ3異なる成分（特徴整列、予測洗練）のために、どの演算子（加算、乗算、結合）が明示知識と暗黙知識を最適に組み合わせるか。
RQ4暗黙知識によるカーネル空間整列と予測洗練は、物体検出、分類、埋め込みタスクで測定可能な利得を生み出すか。
RQ5暗黙知識をベースの検出器に組み込む際のパラメータと FLOPs のトレードオフはどうなるか。

主な発見

暗黙知識を特徴整列に組み込むと、物体検出の AP 指標（AP、AP50、AP75 など）で約 0.5% の改善が得られる。
右の演算子を用いると、暗黙表現による予測洗練の恩恵が得られ、ほとんどの AP 指標で改善が見られる。
共同タスク（JDC/JDE）に暗黙表現を導入すると、単一タスクモデルより高い総合スコアが得られ、中程度・大きな物体での利得もある。
異なる結合演算子はタスクごとに利点が異なる。例として、加算/結合は特徴整列に有利で、乗算は予測タスクの中心化/アンカー洗練に有利。
行列因子分解を介した暗黙知識のモデリングは、テストしたモデリング手法の中で全体として最も良い利得を生んだ（AP+0.2、AP50+0.4、AP75+0.5 のそれぞれ）。
提案手法は、パラメータオーバーヘッドが最小で競争力のある最先端の物体検出性能を達成する（暗黙の加算あたりのパラメータと FLOPs が 0.001 未満）。
ベースラインの YOLOv4-CSP-fast と比較して、統一ネットワークは暗黙知識を用いることで物体検出指標を改善し、追加データなしで最先端手法に匹敵または上回ることができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。