[논문 리뷰] Recon: Reducing Conflicting Gradients from the Root for Multi-Task Learning
Recon은 공유 네트워크 계층에서 계층-별 그래디언트 충돌을 식별하고, 가장 충돌이 큰 계층을 작업별로 전환한 뒤 처음부터 재학습하여 충돌을 크게 줄이고 다중 작업 성능을 향상시킨다.
A fundamental challenge for multi-task learning is that different tasks may conflict with each other when they are solved jointly, and a cause of this phenomenon is conflicting gradients during optimization. Recent works attempt to mitigate the influence of conflicting gradients by directly altering the gradients based on some criteria. However, our empirical study shows that ``gradient surgery'' cannot effectively reduce the occurrence of conflicting gradients. In this paper, we take a different approach to reduce conflicting gradients from the root. In essence, we investigate the task gradients w.r.t. each shared network layer, select the layers with high conflict scores, and turn them to task-specific layers. Our experiments show that such a simple approach can greatly reduce the occurrence of conflicting gradients in the remaining shared layers and achieve better performance, with only a slight increase in model parameters in many cases. Our approach can be easily applied to improve various state-of-the-art methods including gradient manipulation methods and branched architecture search methods. Given a network architecture (e.g., ResNet18), it only needs to search for the conflict layers once, and the network can be modified to be used with different methods on the same or even different datasets to gain performance improvement. The source code is available at https://github.com/moukamisama/Recon.
연구 동기 및 목표
- 다중 작업 학습(MTL)에서 충돌하는 그래디언트로 인한 부정적 전이를 동기 부여하고 이를 해결한다.
- 공유가 가장 큰 문제를 야기하는 위치를 식별하기 위한 계층-별 충돌 지표를 도입한다.
- 가장 큰 충돌을 일으키는 공유 계층을 간단하고 확장 가능한 방법으로 작업별 계층으로 변환하고 재학습하는 방법을 제안한다.
- 루트 계층의 충돌을 제거하면 다양한 데이터셋과 아키텍처에서 성능 향상을 낳는다는 것을 입증한다.
제안 방법
- 초기 학습 중 각 공유 계층에 대한 작업 그래디언트를 계산한다.
- 반복 동안 cos(phi) < S인 작업 쌍 간 그래디언트 각도의 수를 기반으로 계층-별 충돌 점수 s(k)를 정의한다.
- 상위 K개의 충돌 계층을 식별하고 이를 작업별 매개변수로 변환한 뒤 네트워크를 처음부터 재학습한다.
- 수정된 매개변수 집합에 대해 Recon의 한 단계 업데이트 후 손실이 감소했음을 보여주는 이론적 분석을 제공한다.
- 여러 데이터셋과 백본에서 Recon을 실험적으로 검증하고 그래디언트 조작 및 분지형 아키텍처 방법과의 호환성을 보인다.
실험 결과
연구 질문
- RQ1그래디언트 조작만으로가 아니라 루트에서 공유를 구조적으로 축소함으로써 다중 작업 학습의 그래디언트 충돌을 완화할 수 있는가?
- RQ2충돌 그래디언트에 가장 기여하는 공유 계층은 무엇이며, 이를 작업별로 바꾼다고 해도 매개변수 증가가 과도하지 않게 성능을 향상시킬 수 있는가?
- RQ3Recon은 데이터셋과 아키텍처에 걸쳐 최신 그래디언트 조작 기법 및 아키텍처 검색 방법을 일관되게 향상시키는가?
- RQ4다른 작업이나 데이터셋에서 이익을 얻기 위해 충돌 계층에 대한 단일 검색만으로 충분한가?
주요 결과
- Recon은 남아 있는 공유 계층의 충돌 그래디언트를 크게 감소시키며, 종종 공유 매개변수의 13% 미만만이 작업별로 전환된다.
- Recon은 여러 데이터셋(Multi-Fashion+MNIST, CelebA, CityScapes, PASCAL-Context, NYUv2)에서 공동 학습 및 대부분의 그래디언트 조작 기준선 대비 상당한 성능 향상을 보인다.
- Recon은 모델 크기를 적당히 유지하면서 기존 방법(MGDA, PCGrad, GradDrop, CAGrad, RotoGrad, 및 BMTAS와 같은 분지형 아키텍처 검색)에 호환되면서 최상의 기준선들을 개선하거나 일치시킨다.
- Recon이 식별한 충돌 계층은 주어진 아키텍처에서 학습 단계, 방법, 데이터셋 전반에 걸쳐 대체로 일관되며, 더 넓은 적용 가능성을 위한 단일 충돌 계층 검색을 가능하게 한다.
- 제거 연구에서 임의로 계층이나 매개변수를 선택하는 것은 Recon보다 성능이 떨어짐을 보여주며, 가장 심각한 계층-별 충돌을 타깃으로 삼는 것이 중요함을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.