QUICK REVIEW

[논문 리뷰] Routing Networks: Adaptive Selection of Non-linear Functions for Multi-Task Learning

Clemens M. Rosenbaum, Tim Klinger|arXiv (Cornell University)|2017. 11. 03.

Machine Learning and ELM인용 수 48

한 줄 요약

이 논문은 입력에 따라 기능 블록(예: 신경망 레이어)을 동적으로 조합하는 라우터를 사용하는 새로운 다중 작업 학습 아키텍처인 라우팅 네트워크를 제안한다. 이는 적응적이고 작업별로 맞춤화된 계산을 가능하게 한다. 협업형 다중 에이전트 강화학습을 통해 훈련된 모델은 크로스스티치 및 공유 레이어 기반 모델보다 유의미하게 높은 정확도와 더 빠른 수렴 속도를 달성했으며, CIFAR-100(20개 작업)에서 훈련 속도가 최대 85% 빠르게 된다.

ABSTRACT

Multi-task learning (MTL) with neural networks leverages commonalities in tasks to improve performance, but often suffers from task interference which reduces the benefits of transfer. To address this issue we introduce the routing network paradigm, a novel neural network and training algorithm. A routing network is a kind of self-organizing neural network consisting of two components: a router and a set of one or more function blocks. A function block may be any neural network - for example a fully-connected or a convolutional layer. Given an input the router makes a routing decision, choosing a function block to apply and passing the output back to the router recursively, terminating when a fixed recursion depth is reached. In this way the routing network dynamically composes different function blocks for each input. We employ a collaborative multi-agent reinforcement learning (MARL) approach to jointly train the router and function blocks. We evaluate our model against cross-stitch networks and shared-layer baselines on multi-task settings of the MNIST, mini-imagenet, and CIFAR-100 datasets. Our experiments demonstrate a significant improvement in accuracy, with sharper convergence. In addition, routing networks have nearly constant per-task training cost while cross-stitch networks scale linearly with the number of tasks. On CIFAR-100 (20 tasks) we obtain cross-stitch performance levels with an 85% reduction in training time.

연구 동기 및 목표

다중 작업 학습(MTL)에서의 작업 간 간섭을 줄이기 위해 입력에 따라 의존적인 신경망 구성 요소의 동적 조합을 가능하게 한다.
공유 레이어나 크로스스티치 네트워크와 같은 고정된 아키텍처 설계의 한계를 극복하여 부정적 전이를 초래할 수 있다.
완전 연결 또는 컨볼루션 레이어와 같은 기능 블록을 입력과 작업에 따라 적응적으로 선택할 수 있는 일반화 가능한 프레임워크를 개발한다.
크로스스티치 네트워크처럼 작업 수에 따라 선형적으로 증가하는 훈련 비용에 비해, 작업당 일정한 비용을 유지하는 효율적인 훈련을 가능하게 한다.
다중 에이전트 강화학습을 활용해, 기능 블록을 공유할 때 유리한 경우를 고려하여 작업별로 맞춤화된 라우팅 정책을 학습하는 라우터를 개발한다.

제안 방법

라우터와 기능 블록의 세트로 구성된 라우팅 네트워크를 설계하며, 라우터는 고정된 깊이까지 기능 블록을 재귀적으로 선택하고 적용한다.
강화학습을 사용해 하드 라우팅 결정을 구현하며, 각 작업이 독립적인 강화학습 에이전트를 갖도록 하여 라우팅 정책을 학습한다.
라우터와 기능 블록을 함께 훈련하기 위해 협업형 다중 에이전트 강화학습 프레임워크(가중치 정책 학습자)를 사용하여 작업별 적응을 가능하게 한다.
입력 특징, 작업 식별자, 재귀 깊이, 이전 라우팅 선택 기록을 기반으로 라우터의 결정을 조건화하여 동적이고 계층적인 조합을 지원한다.
입력/출력 차원이 호환되는 한, 다양한 종류의 기능 블록(예: 서로 다른 유형의 레이어)을 지원한다.
정책 기반 방법을 사용해 시스템을 엔드 투 엔드로 훈련하며, 라우터의 결정은 비가역적이지만 정책 학습을 통해 최적화된다.

실험 결과

연구 질문

RQ1동적이고 적응적인 라우팅 메커니즘은 다중 작업 학습에서 작업 간섭을 줄이고 일반화 성능을 향상시킬 수 있는가?
RQ2정확도와 훈련 효율성 측면에서 크로스스티치 네트워크 및 공유 레이어 모델과 비교해 라우팅 네트워크의 성능는 어떠한가?
RQ3라우터는 데이터의 구조적 특성과 작업 유사성에 반영된 작업별로 맞춤화된 라우팅 전략을 어느 정도 학습할 수 있는가?
RQ4다중 에이전트 강화학습은 단일 에이전트 또는 미분 가능 라우팅 접근 방식에 비해 더 나은 탐색과 수렴을 가능하게 하는가?
RQ5크로스스티치 아키텍처처럼 작업 수에 따라 선형적으로 증가하는 것과는 달리, 대규모 작업 수에 비례해도 작업당 훈련 비용을 일정하게 유지할 수 있는가?

주요 결과

라우팅 네트워크는 MNIST, 미니-ImageNet, CIFAR-100에서 크로스스티치 네트워크 및 공유 레이어 기반 기준보다 유의미하게 높은 정확도를 달성한다.
20개 작업이 있는 CIFAR-100에서, 라우팅 네트워크는 크로스스티치 수준의 성능를 달성하면서도 훈련 시간이 85% 감소했다.
모델은 더 빠른 수렴 속도와 빠른 훈련 동역학을 보이며, 정책 엔트로피가 시간이 지남에 따라 감소함으로써 안정적이고 작업별로 맞춤화된 라우팅 전략으로 수렴하는 것으로 나타났다.
라우터는 다양한 라우팅 패턴을 학습한다: MNIST-MTL의 경우, 네트워크는 처음 7개의 기능 블록을 사용하고, 이를 4개로 줄였다가 다시 5개로 확장함으로써 비정형적이고 학습된 아키텍처 조합을 보였다.
분석 결과, 라우팅 정책는 순수 전략(한 개의 블록에 100% 확률)으로 수렴했으며, 초기에 도착한 에이전트(예: 그림 11의 분홍색 및 초록색)가 특정 블록을 지배하는 것으로 나타났다.
라우팅 맵를 통해 기능 블록을 다양한 작업 간에 재사용하는 능력이 뚜렷하게 드러나, 부정적 간섭 없이 효과적인 양의 전이를 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.