QUICK REVIEW

[논문 리뷰] You Only Learn One Representation: Unified Network for Multiple Tasks

Chien-Yao Wang, I-Hau Yeh|arXiv (Cornell University)|2021. 05. 10.

Neural Networks and Applications참고 문헌 16인용 수 388

한 줄 요약

본 논문은 암시적(학습된 잠재의식) 지식과 명시적(관찰과 정렬된) 지식을 통합하여 단일 모델 내에서 여러 작업을 수행하도록 하는 통합 네트워크를 제안하며, 최소한의 매개변수/비용 증가로 성능을 향상시킨다. 커널 공간 정렬, 예측 정제, 그리고 암시적 표현을 통한 다중 작업 학습을 구현한다.

ABSTRACT

People ``understand'' the world via vision, hearing, tactile, and also the past experience. Human experience can be learned through normal learning (we call it explicit knowledge), or subconsciously (we call it implicit knowledge). These experiences learned through normal learning or subconsciously will be encoded and stored in the brain. Using these abundant experience as a huge database, human beings can effectively process data, even they were unseen beforehand. In this paper, we propose a unified network to encode implicit knowledge and explicit knowledge together, just like the human brain can learn knowledge from normal learning as well as subconsciousness learning. The unified network can generate a unified representation to simultaneously serve various tasks. We can perform kernel space alignment, prediction refinement, and multi-task learning in a convolutional neural network. The results demonstrate that when implicit knowledge is introduced into the neural network, it benefits the performance of all tasks. We further analyze the implicit representation learnt from the proposed unified network, and it shows great capability on catching the physical meaning of different tasks. The source code of this work is at : https://github.com/WongKinYiu/yolor.

연구 동기 및 목표

훈련 중에 학습된 암시적 지식을 활용하여 여러 작업을 처리할 수 있는 단일 네트워크를 구축하는 것을 동기부여한다.
관찰과 정렬된 명시적 특징과 암시적 잠재 지식을 결합한 통합 표현을 도입한다.
암시적 지식을 포함하면 작업 전반의 성능이 최소한의 매개변수 증가로 향상됨을 입증한다.
다중 작업 설정에서 커널 공간 정렬과 예측 정제를 위한 방법을 제시한다.
객체 탐지, 다중 라벨 분류 및 특징 임베딩에 대한 접근법을 평가한다.
벡터, 신경망, 또는 행렬 분해를 통해 암시적 지식을 모델링하는 방법에 대한 지침을 제공한다.

제안 방법

관찰에 직접 연결된 특징으로서의 명시적 지식과 작업에 독립적인 잠재 표현으로서의 암시적 지식을 정의한다.
공통 명시적 표현 f_theta(x)과 작업별 암시적 표현 g_phi(z)를 덧셈, 곱셈, 연결(concatenation) 등의 연산으로 결합하는 통합 네트워크를 도입한다.
전통적 오차와 암시적-명시적 지식 항의 합을 최소화하도록 학습을 수식화하여 단일 표현이 다중 작업을 지원하도록 한다.
암시적 지식을 벡터, 신경망, 또는 행렬 분해 형태로 소량의 우선 정보를 가지도록 모델링하고, 추론 시점에는 z가 추론 시 상수 텐서이므로 단순화를 허용한다.
출력 커널을 평행/회전/축척하여 다중 작업 공간을 정렬하는 커널 공간 정렬을 적용하고, 암시적 지식 프레임워크 내에서 예측 정제와 다중 작업 학습을 적용한다.
FPN 특징 정렬, YOLO 출력에서의 예측 정제, 그리고 표준적인 다중 작업 표현을 실험한다; 연산자와 모델링 접근법을 비교하여 성능 향상을 평가한다.

실험 결과

연구 질문

RQ1하나의 통합 네트워크가 암시적 지식과 명시적 지식을 결합하여 여러 작업을 지원하는 일반 표현을 학습할 수 있는가?
RQ2암시적 표현을 벡터, 신경망, 또는 행렬 분해로 모델링하고 통합하여 다중 작업 성능을 개선할 수 있는가?
RQ3다른 구성 요소(특징 정렬, 예측 정제)에 대해 명시적 지식과 암시적 지식을 결합하는 데 어떤 연산자(덧셈, 곱셈, 연결)가 가장 좋은가?
RQ4커널 공간 정렬과 암시적 지식을 통한 예측 정제가 객체 탐지, 분류, 임베딩 작업에서 측정 가능한 이득을 가져오는가?
RQ5암시적 지식을 기반으로 한 매개변수 및 FLOPs의 트레이드오프는 바운스가 얼마나 되는가?

주요 결과

암시적 지식을 특징 정렬에 도입하면 객체 탐지의 AP, AP50, AP75 등에서 약 0.5%의 개선이 나타난다.
적절한 연산자를 사용할 때 암시적 표현으로 예측 정제가 이익을 가져와 대부분의 AP 지표에서 개선을 보인다.
joint 작업(JDC/JDE)에 암시적 표현을 도입하면 단일 작업 모델보다 전체 점수가 더 높아질 수 있으며 중형 및 대형 물체에서의 이득도 있다.
다른 결합 연산자는 작업별 이점을 보이며, 예를 들어 덧셈/연결은 특징 정렬에 도움을 주는 반면 곱셈은 예측 작업에서 중심/앵커 정제에 도움을 준다.
행렬 분해를 통한 암시적 지식 모델링이 테스트한 모델링 방식 중 전체 이익이 가장 크게 나타났다(AP +0.2, AP50 +0.4, AP75 +0.5).
제안된 접근법은 암시적 추가당 매개변수 및 FLOPs가 0.001 미만으로도 경쟁력 있는 객체 탐지 성능을 달성한다.
기준 YOLOv4-CSP-fast와 비교할 때, 암시 지식을 갖춘 통합 네트워크가 객체 탐지 지표를 개선하고 추가 데이터 없이도 최첨단 방법과 어깨를 나란히 하거나 앞설 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.