QUICK REVIEW

[논문 리뷰] Deep Multi-task Representation Learning: A Tensor Factorisation Approach

Yongxin Yang, Timothy M. Hospedales|arXiv (Cornell University)|2016. 05. 20.

Tensor decomposition and applications인용 수 105

한 줄 요약

본 논문은 DMTRL를 소개한다, 텐서 분해(Tucker, TT, Last Axis Flattening)를 통해 계층별 공유 구조를 학습하는 심층 다중 작업 학습 프레임워크로, 수동으로 지정된 공유 패턴 없이 심층 네트워크에서 엔드-투-엔드 지식 공유를 가능하게 한다.

ABSTRACT

Most contemporary multi-task learning methods assume linear models. This setting is considered shallow in the era of deep learning. In this paper, we present a new deep multi-task representation learning framework that learns cross-task sharing structure at every layer in a deep network. Our approach is based on generalising the matrix factorisation techniques explicitly or implicitly used by many conventional MTL algorithms to tensor factorisation, to realise automatic learning of end-to-end knowledge sharing in deep networks. This is in contrast to existing deep learning approaches that need a user-defined multi-task sharing strategy. Our approach applies to both homogeneous and heterogeneous MTL. Experiments demonstrate the efficacy of our deep multi-task representation learning in terms of both higher accuracy and fewer design choices.

연구 동기 및 목표

얕은 선형 모델을 넘어 엔드-투-엔드 심층 다중 작업 학습의 필요성과 가능성을 제시한다.
행렬 분해 기반 MTL을 확장하여 DNN의 계층과 출력 간 공유를 위한 텐서 분해로 일반화한다.
동일형 및 이질형 MTL 작업 모두에 대해 각 계층에서 공유 구조를 자동으로 학습하도록 한다.
사용자 지정 공유 설계를 줄이고 합성곱 및 전결합 계층을 지원하는 확장 가능한 프레임워크를 제공한다.

제안 방법

공유 매개변수와 작업 특이 매개변수를 인코딩하는 고차 텐서로 작업 모델을 표현한다.
계층 간 가중치 텐서를 인자화하기 위해 Tucker 분해, 텐서 트레인 분해, 또는 Last Axis Flattening을 적용하여 공유 패턴을 구현한다.
학습된 분해된 구성요소들로 순전파 중 가중치 텐서를 합성하여 비미분 가능 단계 없이 역전파를 가능하게 한다.
공유 메커니즘을 전결합에서 합성곱 계층으로 확장하고, 합성곱 커널을 공유 계수를 갖는 고차 텐서로 취급한다.
표준 역전파로 학습하고, 초기화는 단일 최대 재구성 오차 하이퍼파라미터(epsilon=10%)를 갖는 STL 기반 분해 가중치를 활용할 수 있다.

실험 결과

연구 질문

RQ1깊은 신경망이 동일형 및 이질형 MTL 설정에서 모든 계층에서 교차 작업 공유를 자동으로 학습할 수 있는가?
RQ2텐서 분해가 심층 MTL에서 수동 아키텍처 탐색을 줄이고 원칙적이며 데이터 기반의 공유 메커니즘을 제공할 수 있는가?
RQ3Tucker, TT, 및 Last Axis Flattening이 DNN 내에서 작업과 출력 간 매개변수를 어떻게 공유하는가?
RQ4DMTRL 방법이 단일 작업 학습을 능가하고 다양 한 데이터셋에서 신중하게 설계된 사용자 정의 MTL 벤치마크에 상응하거나 그 이상을 달성하는가?
RQ5학습된 공유가 심층 MTL의 성능과 아키텍처 설계에 미치는 실제 영향은 무엇인가?

주요 결과

DMTRL 방법은 평가된 작업에서 일관되게 단일 작업 학습보다 우수하다.
DMTRL-Tucker 및 DMTRL-TT는 학습 데이터가 제한될 때 최고의 사용자 정의 MTL 아키텍처에 필적하거나 그 이상이며, 데이터가 풍부할 때는 비슷하다.
이 접근법은 계층별 공유를 학습하며 상위 계층에서 점차 감소하도록 학습하여 하위 계층이 상위 계층보다 더 많이 공유된다는 직관과 일치한다.
동일형, 이질형, 다국어 문자 인식 작업 전반에 걸쳐 DMTRL 변형은 STL 대비 강건한 성능 향상을 보이고 UD-MTL에 비해 경쟁력 있는 결과를 보여준다.
공유 강도는 S-유사 인자 행렬을 통해 정량화할 수 있으며, 더 깊은 계층일수록 공유가 적고 초기 계층에서 더 많이 공유되는 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.