QUICK REVIEW

[논문 리뷰] One Model To Learn Them All

Łukasz Kaiser, Aidan N. Gomez|arXiv (Cornell University)|2017. 06. 16.

Multimodal Machine Learning Applications참고 문헌 20인용 수 257

한 줄 요약

본 논문은 비전, 언어, 음성, 구문 분석에 걸친 여덟 가지 다양한 태스크를 함께 학습하는 단일 심층 모델 MultiModel을 제시하며, 전이 및 교차 도메인 이점을 보인다.

ABSTRACT

Deep learning yields great results across many fields, from speech recognition, image classification, to translation. But for each problem, getting a deep model to work well involves research into the architecture and a long period of tuning. We present a single model that yields good results on a number of problems spanning multiple domains. In particular, this single model is trained concurrently on ImageNet, multiple translation tasks, image captioning (COCO dataset), a speech recognition corpus, and an English parsing task. Our model architecture incorporates building blocks from multiple domains. It contains convolutional layers, an attention mechanism, and sparsely-gated layers. Each of these computational blocks is crucial for a subset of the tasks we train on. Interestingly, even if a block is not crucial for a task, we observe that adding it never hurts performance and in most cases improves it on all tasks. We also show that tasks with less data benefit largely from joint training with other tasks, while performance on large tasks degrades only slightly if at all.

연구 동기 및 목표

다양한 도메인의 태스크를 태스크 특화 아키텍처 없이 처리할 수 있는 통합 딥러닝 모델의 생성을 동기화한다.
다양한 계산 블록을 활용하는 공유 바디를 가진 모달리티 특화 네트들을 결합한 MultiModel 아키텍처를 제안한다.
여덟 개 말뭉치에서의 학습을 시연하고, 공유 블록이 태스크 및 데이터 규모 간에 어떻게 전이되는지 분석한다.
공동 학습과 단일 태스크 학습의 영향과 어텐션 및 mixture-of-experts 블록의 필요성을 조사한다.

제안 방법

다른 모달리티의 입력을 공유 표현 공간으로 매핑하는 모달리티 네트를 도입한다.
합성곱, 어텐션 및 희소 게이트드 mixture-of-experts 블록으로 구성된 바디를 사용하여 처리하고 출력을 생성한다.
ByteNet/WaveNet과 유사한 자기회귀적(autoregressive) 완전 합성곱 인코더–mixer–디코더 프레임워크를 사용하되 교차 도메인 블록으로 구성된다.
WSJ 음성, ImageNet, COCO 캡션, WSJ 구문 분석, 그리고 WMT EN-DE, DE-EN, EN-FR, FR-DE 번역의 여덟 말뭉치에서 함께 학습한다.
각 모달리티 내의 태스크 간 파라미터를 공유하여 일반화를 촉진하고 새로운 태스크의 즉시 추가를 가능하게 한다.

실험 결과

연구 질문

RQ1여덟 가지 다양한 태스크로 학습된 단일 모델이 개별 태스크에서 최첨단 성능에 얼마나 근접할 수 있는가?
RQ2유사한 계산 자원으로 각 태스크를 개별적으로 학습하는 것과 여덟 태스크를 공동 학습하는 것은 어떻게 비교되는가?
RQ3태스크 간 성능에 기여하는 계산 블록은 무엇인가? (어텐션, 전문가 혼합 포함)
RQ4공동 학습 시 겉으로 보기에 관련 없은 도메인 간에도 교차 태스크 전이(transfers)가 발생하는가? 예: ImageNet과 구문 분석.

주요 결과

8개 태스크를 가진 MultiModel은 경쟁력 있는 결과를 달성하지만 아직 최첨단은 아니다( ImageNet top-5 86%, WMT EN→DE 21.2 BLEU, WMT EN→FR 30.5 BLEU).
공동 8-태스크 학습은 대형 태스크에서 단일 태스크 학습과 유사하게 작동하고, 파싱처럼 데이터가 부족한 태스크에서 우수한 성능을 낼 수 있다.
전문가 혼합(mixture-of-experts) 및 어텐션 블록의 포함은 일반적으로 성능을 향상시키거나 적어도 악화시키지 않는다; 둘 중 하나를 제거하면 성능 저하나 미미한 영향이 있을 수 있다.
교차 도메인 전이가 관찰된다; ImageNet으로 구문 분석을 학습하거나 여덟 태스크로 학습하면 단독 구문 분석 학습보다 향상이 있다.
태스크는 공유 모달리티 네트와 통일된 표현으로 이점을 얻으며, 새로운 태스크의 즉시 추가와 데이터 풍부한 태스크에서 데이터 부족 태스크로의 양의 전이를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.