[논문 리뷰] Modular Deep Learning
모듈식 심층 학습 아키텍처에 대한 고찰로, 모듈, 라우팅, 집계 및 학습 구성 요소가 어떻게 상호 작용하여 NLP, 비전, 음성 및 강화학습 과제 전반에서 긍정적 전이, 구성적 일반화 및 매개변수 효율성을 가능하게 하는지 상세히 설명한다.
Transfer learning has recently become the dominant paradigm of machine learning. Pre-trained models fine-tuned for downstream tasks achieve better performance with fewer labelled examples. Nonetheless, it remains unclear how to develop models that specialise towards multiple tasks without incurring negative interference and that generalise systematically to non-identically distributed tasks. Modular deep learning has emerged as a promising solution to these challenges. In this framework, units of computation are often implemented as autonomous parameter-efficient modules. Information is conditionally routed to a subset of modules and subsequently aggregated. These properties enable positive transfer and systematic generalisation by separating computation from routing and updating modules locally. We offer a survey of modular architectures, providing a unified view over several threads of research that evolved independently in the scientific literature. Moreover, we explore various additional purposes of modularity, including scaling language models, causal inference, programme induction, and planning in reinforcement learning. Finally, we report various concrete applications where modularity has been successfully deployed such as cross-lingual and cross-modal knowledge transfer. Related talks and projects to this survey, are available at https://www.modulardeeplearning.com/.
연구 동기 및 목표
- 모듈화가 전이 학습 및 체계적 일반화에 왜 도움이 되는지 설명한다.
- 계산, 라우팅, 집계 및 학습을 포괄하는 모듈식 심층 학습의 통일된 분류를 제공한다.
- 기존 모듈 구현, 라우팅 전략 및 집계 메커니즘과 이들이 학습 설정과 상호 작용하는 방식을 조사한다.
- 자연어 처리, 컴퓨터 비전, 음성 및 강화학습에서 모듈화의 활용과 향후 방향을 강조한다.
제안 방법
- 계산, 라우팅, 집계 블록으로 구성된 일반적인 모듈식 함수를 정의한다.
- 계산을 매개변수, 입력 및 함수 조합과 하이퍼네트워크로 구분한다.
- 고정된 라우팅과 학습된 라우팅, 소프트 라우팅과 하드 라우팅을 구분하되, top-k 및 Mixture-of-Experts 변형을 포함한다.
- 결합 전략을 결정론적 가중치에서 주의 기반 학습 가능 집계자에 이르는 범위로 기술한다.
- 공동 다중 작업 학습, 연속 학습, 사전 학습된 모델의 사후 모듈화 등 학습 설정을 논의한다.
- 모듈식 함수의 순전파에 대한 통일된 표기 및 알고리즘적 관점을 제공한다(Algorithm 1).
실험 결과
연구 질문
- RQ1다중 작업 및 연속 학습에서 간섭과 망각을 어떻게 완화할 수 있는가?
- RQ2양의 전이 및 체계적 일반화를 가능하게 하는 설계 선택(계산, 라우팅, 집계)은 무엇인가?
- RQ3다양한 모듈식 접근 방식이 언어, 모달리티 및 과제 전반에서 어떻게 확장되는가?
- RQ4사전 학습된 백본과 함께 모듈식 구성요소를 배치하기 위한 실용적인 학습 방식은 무엇인가?
- RQ5전이 학습 및 일반화에서 모듈화의 이점을 보이는 응용 사례는 어떤 것들이 있는가?
주요 결과
- 모듈화는 계산과 라우팅 및 업데이트를 분리하여 로컬 모듈 업데이트를 가능하게 하고 분포 변화에 대한 견고성을 향상시킨다.
- 일원화된 시각은 많은 방법을 계산, 라우팅, 집계 및 학습의 조합으로 볼 수 있음을 보여주어 문헌 간 연결을 명확히 한다.
- 희소 및 저랭크 어댑터, 프롬프트 기반 및 하이퍼네트워크 기반 모듈은 매개변수 효율적인 미세조정과 확장 가능한 성장을 제공한다.
- 선택적 모듈 활성화를 통한 하드 라우팅은 조건부 계산과 모듈식 특수화를 가능하게 하고, 소프트 라우팅은 그래디언트 친화적인 학습을 제공한다.
- 모듈성은 NLP, CV, 음성 전반에 걸친 교차 언어 및 교차 모달 지식 전이와 더 넓은 전이 학습 적용을 뒷받침한다.
- 모듈성은 계층적 강화학습, 프로그램 시뮬레이션, 인과 탐지 및 범용 에이전트에도 정보를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.