QUICK REVIEW

[논문 리뷰] Reasonable Effectiveness of Random Weighting: A Litmus Test for Multi-Task Learning

Baijiong Lin, Feiyang Ye|arXiv (Cornell University)|2021. 11. 20.

Domain Adaptation and Few-Shot Learning인용 수 38

한 줄 요약

다중 작업 학습을 위한 Random Weighting(RW) 방법을 소개하고, 임의로 샘플링된 손실/그래디언트 가중치가 수렴하고 최첨단 베이스라인에 비해 일반화 성능이 경쟁력 있게 달성될 수 있음을 보인다.

ABSTRACT

Multi-Task Learning (MTL) has achieved success in various fields. However, how to balance different tasks to achieve good performance is a key problem. To achieve the task balancing, there are many works to carefully design dynamical loss/gradient weighting strategies but the basic random experiments are ignored to examine their effectiveness. In this paper, we propose the Random Weighting (RW) methods, including Random Loss Weighting (RLW) and Random Gradient Weighting (RGW), where an MTL model is trained with random loss/gradient weights sampled from a distribution. To show the effectiveness and necessity of RW methods, theoretically we analyze the convergence of RW and reveal that RW has a higher probability to escape local minima, resulting in better generalization ability. Empirically, we extensively evaluate the proposed RW methods to compare with twelve state-of-the-art methods on five image datasets and two multilingual problems from the XTREME benchmark to show RW methods can achieve comparable performance with state-of-the-art baselines. Therefore, we think that the RW methods are important baselines for MTL and should attract more attentions.

연구 동기 및 목표

EW를 넘어 MTL에서 작업 균형을 테스트하기 위한 간단한 기준선의 필요성을 제안한다.
손실 및 그래디언트 균형을 위한 확률적 기준선으로 Random Weighting(RW) 방법—Random Loss Weighting(RLW) 및 Random Gradient Weighting(RGW)—을 제안한다.
RW 방법의 수렴 및 일반화 보장을 이론적으로 분석한다.
RW를 CV 및 XTREME 다국어 벤치마크의 12개의 SOTA 방법과 비교 평가하여 효과성과 강건성을 평가한다.

제안 방법

RW를 분포로부터 작업 가중치를 샘플링하고 이를 단순체로 정규화한 다음 가중합 손실이나 그레이디언트를 사용하여 파라미터를 업데이트하는 것으로 정의한다.
표준 정규 분포에서 샘플링된 가중치를 소프트맥스 기반으로 정규화하는 RLW 및 RGW 알고리즘을 제안한다.
RLW가 EW의 확률적 변형임을 입증하고 표준 가정 하에서 수렴 보장을 도출한다.
추가된 무작위성이 급한 국소 최솟값에서 벗어나 일반화 성능을 향상시키는 데 도움이 된다는 것을 보인다.
다섯 개의 CV 데이터세트와 두 개의 XTREME 다국어 태스크에서 RW를 손실 및 그래디언트 균형 기준선과 비교 실험한다.
다른 균형화 방법 및 아키텍처 변형과의 RW 결합을 조사한다.

실험 결과

연구 질문

RQ1손실 및 그래디언트 균형에서의 무작위 가중화가 수렴하고 고정된 동일 가중치(EW)와 비교해 경쟁력 있는 성능을 제공하는가?
RQ2표준 최적화 가정 하에서 RLW/RGW의 수렴 및 일반화 특성은 EW에 비해 어떤가?
RQ3다양한 MTL 설정(CV 및 다국어 벤치마크)과 아키텍처에서 RW 방법의 성능은 어떠한가?
RQ4RW가 더 정교한 작업 균형 전략을 평가하기 위한 강력한 리트머스 테스트 기준선으로 작용할 수 있는가?

주요 결과

RW 방법(RLW 및 RGW)은 평가된 모든 태스크에서 일관되게 EW를 능가한다.
RLW는 손실 균형 기준선 중 NYUv2에서 EW에 비해 보고된 가장 큰 개선을 달성한다.
RGW와 RLW는 벤치마크 전반에서 최첨단 그래디언트/손실 균형 방법과 비교할 만한 성능을 달성한다.
이론적 결과는 RLW가 EW의 확률적 변형이며 수렴 보장을 가지며 날카로운 국소 최솟값에서 벗어남으로써 일반화에 더 유리할 수 있음을 시사한다.
RW 방법은 다양한 가중치 분포에 대해 강건함을 보여주고 다양한 MTL 아키텍처와 효율적으로 통합될 수 있다.
RW 방법은 특정 그래디언트 균형 방법과 결합될 때 상당한 개선을 보이며 다국어 태스크에서 특정 기준선을 능가할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.