[논문 리뷰] Transfer Learning with Neural AutoML
Transfer Neural AutoML은 다중 작업 학습을 활용해 아키텍처 검색의 priors를 학습하고, 컨트롤러와 작업 임베딩을 NLP와 이미지 분류 작업 간에 전이하여 새로운 작업에서 수렴 시간을 크게 줄인다.
We reduce the computational cost of Neural AutoML with transfer learning. AutoML relieves human effort by automating the design of ML algorithms. Neural AutoML has become popular for the design of deep learning architectures, however, this method has a high computation cost. To address this we propose Transfer Neural AutoML that uses knowledge from prior tasks to speed up network design. We extend RL-based architecture search methods to support parallel training on multiple tasks and then transfer the search strategy to new tasks. On language and image classification tasks, Transfer Neural AutoML reduces convergence time over single-task training by over an order of magnitude on many tasks.
연구 동기 및 목표
- 이전 작업의 지식을 활용하여 Neural AutoML의 계산 비용을 줄인다.
- RL 기반 아키텍처 검색을 확장하여 병렬 다중 작업 학습을 지원한다.
- 다중 작업 컨트롤러와 작업 임베딩을 통해 작업 인식 priors를 학습하여 새로운 작업에 대한 적응을 가속한다.
- 텍스트 및 이미지 분류 작업에서 컨트롤러의 전이를 입증한다.
제안 방법
- 연산적 탐색( NAS )에서 이산적 행동으로 아키텍처를 생성하는 컨트롤러(RNN)가 있는 NAS를 사용한다.
- 공유 컨트롤러 매개변수와 작업별 임베딩으로 조건화된 모델 생성을 통해 다중 작업 Neural AutoML을 구현한다.
- 강화 이점 정규화(중심화 및 스케일링된 보상)를 적용하여 작업 간 균형 잡힌 그래디언트 업데이트를 수행한다.
- 다중 작업 컨트롤러를 여러 작업에서 사전 학습하여 일반 priors를 학습한다.
- 새 작업으로의 전이는 컨트롤러 매개변수를 재사용하고 새로운 작업 임베딩을 추가한 다음 탐색을 재개한다.
- NLP 및 이미지 데이터셋에서 topN 검증/테스트 성능과 수렴 속도로 평가한다.
실험 결과
연구 질문
- RQ1다중 작업 RL 기반 AutoML 컨트롤러가 아키텍처와 하이퍼파라미터에 대한 이전 가능한 priors를 학습할 수 있는가?
- RQ2새로운 NLP 및 이미지 작업을 설계할 때 전이가 수렴 속도를 얼마나 높일 수 있는가?
- RQ3작업 임베딩이 작업별 요구사항에 맞게 아키텍처를 정렬하는 역할은 무엇인가?
- RQ4전이 AutoML이 도메인 간 검색 비용을 줄이면서 경쟁력 있는 정확도를 유지하는가?
- RQ5전이 학습이 작업 간 과적합 및 강건성에 어떤 영향을 미치는가?
주요 결과
- 다중 작업 Neural AutoML은 단일 작업 AutoML 및 무작위 탐색에 비해 여러 NLP 데이터세트에서 수렴 시간 대폭 감소를 달성한다.
- NLP 작업에서 전이 AutoML은 일반적으로 동일한 검증 정확도에 도달하는 데 더 적은 시도로 가능하며, 종종 차원에서 상당히 적은 시도 수로 달성한다.
- 전이 AutoML은 고정된 시도 예산으로도 경쟁력 있는 테스트 정확도를 달성하고 같은 예산 내에서 종종 단일 작업 AutoML보다 더 나은 성능을 보인다.
- 이미지 분류(CIFAR-10)에서 전이된 컨트롤러는 더 빠르게 수렴하고 비전이전 방법과 유사한 높은 top-10 정확도를 얻는다.
- 작업 임베딩은 작업별 적응 및 작업 간 유사성 학습을 가능하게 하여 컨트롤러를 적합한 모델 구성으로 이끈다.
- 다중 작업 학습은 해석 가능한 작업 클러스터와 유사 작업 간 일관된 아키텍처 패턴을 산출한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.