[논문 리뷰] Trapped by simplicity: When Transformers fail to learn from noisy features
트랜스포머는 희소 패리티 및 홀수 희소 다수함수에 대해 노이즈에 강하게 학습할 수 있지만, 일반적으로 단순성 편향으로 인해 임의의 k- juntas에는 실패한다; 학습에 높은 민감도 패널티를 도입하면 트랩에서 벗어나 학습을 돕는 데 도움이 된다.
Noise is ubiquitous in data used to train large language models, but it is not well understood whether these models are able to correctly generalize to inputs generated without noise. Here, we study noise-robust learning: are transformers trained on data with noisy features able to find a target function that correctly predicts labels for noiseless features? We show that transformers succeed at noise-robust learning for a selection of $k$-sparse parity and majority functions, compared to LSTMs which fail at this task for even modest feature noise. However, we find that transformers typically fail at noise-robust learning of random $k$-juntas, especially when the boolean sensitivity of the optimal solution is smaller than that of the target function. We argue that this failure is due to a combination of two factors: transformers' bias toward simpler functions, combined with an observation that the optimal function for noise-robust learning typically has lower sensitivity than the target function for random boolean functions. We test this hypothesis by exploiting transformers' simplicity bias to trap them in an incorrect solution, but show that transformers can escape this trap by training with an additional loss term penalizing high-sensitivity solutions. Overall, we find that transformers are particularly ineffective for learning boolean functions in the presence of feature noise.
연구 동기 및 목표
- 특징 노이즈가 있는 학습 데이터로 트랜스포머가 타깃 불 함수 학습 여부를 조사한다.
- 패리티, 다수, 임의의 juntas에서 트랜스포머와 LSTM의 노이즈-강인 학습 성능을 비교한다.
- 트랜스포머의 노이즈-강인 학습 실패/성공 원인과 함수의 단순성 및 민감도와 같은 요인을 파악한다.
- 노이즈 특성에서의 학습을 개선하기 위한 단순성 편향 완화 방법을 모색한다.
제안 방법
- 이항 입력 작업에서 iid 비트 뒤집이 노이즈를 사용하는 self-attention 네트워크(SANs) 및 LSTMs를 모델링하고 학습한다.
- 희소 다수 및 패리티 함수, 그리고 다수의 하이퍼파라미터 설정 및 무작위 초기화에서 임의의 k- juntas에 대한 학습을 평가한다.
- 노이즈 없는 일반화 오차 및 노이즈 특징 일반화 오차를 정량화하여 노이즈-강인 학습을 평가한다.
- 함수의 단순성을 민감도를 통해 분석하고 기능 클래스 전반에서 f와 f_N^* (최적의 노이즈 예측기)를 비교한다.
- 제어된 트랩 함수 실험을 수행하고 높은 민감도 해를 억제하는 손실 패널티를 테스트하여 가능성 있는 해결책을 연구한다.
실험 결과
연구 질문
- RQ1패리티 및 다수 작업에서 트랜스포머가 노이즈가 있는 입력 특징으로부터 기저 불 함수들을 학습할 수 있는가?
- RQ2단순성 편향이 있는 트랜스포머가 함수 클래스 전반에서 노이즈-강인 학습에서 LSTM보다 성능을 상회하는가 아니면 미치는가?
- RQ3최적의 노이즈 예측기가 목표 함수보다 민감도가 낮은 조건은 어떤 것이며, 이것이 학습에 어떤 영향을 미치는가?
- RQ4높은 민감도 해에 대한 페널티를 추가하면 트랜스포머가 학습 트랩에서 벗어나고 노이즈-강인 학습을 개선하는가?
주요 결과
- 트랜스포머는 노이즈 특징에서 패리티와 홀수 길이의 희소 다수함수를 안정적으로 학습하여 LSTMs보다 이러한 작업에서 우수하다.
- 트랜스포머는 임의의 k- juntas에 대한 노이즈-강인 학습에서 일반적으로 실패하며, 특히 대상 함수의 민감도가 최적의 노이즈 예측기의 민감도보다 큰 경우에 그러하다.
- 노이즈 데이터의 최적 예측기(f_N^*)는 일반적으로 무작위 불 함수보다 평균 민감도가 더 낮아 트랜스포머가 노이즈 데이터로 학습할 때 비최적 해로 편향된다.
- 트랜스포머는 노이즈 검증 데이터에서 비슷한 성능의 잘못된 함수에 의해 트랩에 갇힐 수 있지만, 높은 민감도 해를 페널티하는 손실 항을 추가하면 트랩에서 벗어나는 데 도움이 된다.
- LSTMs 역시 노이즈-강인 학습에 어려움을 겪지만 과적합 및 단순성 편향의 부재 등 다른 이유 때문이다.
- 전반적으로 트랜스포머는 특징 노이즈가 존재하는 상황에서 불 함수 학습에 특히 비효율적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.