[論文レビュー] Trapped by simplicity: When Transformers fail to learn from noisy features
Transformers はスパースパリティと奇数スパース多数関数にはノイズに頑健に学習できるが、一般にその単純さバイアスのためランダムな k-ジョンタでは失敗する。訓練時に高感度ペナルティを導入すると罠から抜け出すのに役立つ。
Noise is ubiquitous in data used to train large language models, but it is not well understood whether these models are able to correctly generalize to inputs generated without noise. Here, we study noise-robust learning: are transformers trained on data with noisy features able to find a target function that correctly predicts labels for noiseless features? We show that transformers succeed at noise-robust learning for a selection of $k$-sparse parity and majority functions, compared to LSTMs which fail at this task for even modest feature noise. However, we find that transformers typically fail at noise-robust learning of random $k$-juntas, especially when the boolean sensitivity of the optimal solution is smaller than that of the target function. We argue that this failure is due to a combination of two factors: transformers' bias toward simpler functions, combined with an observation that the optimal function for noise-robust learning typically has lower sensitivity than the target function for random boolean functions. We test this hypothesis by exploiting transformers' simplicity bias to trap them in an incorrect solution, but show that transformers can escape this trap by training with an additional loss term penalizing high-sensitivity solutions. Overall, we find that transformers are particularly ineffective for learning boolean functions in the presence of feature noise.
研究の動機と目的
- トレーニングデータの特徴ノイズからターゲットブール関数を学習できるかを調査する。
- パリティ、マジョリティ、およびランダムジョンタについて、トランスフォーマーとLSTMのノイズ耐性学習性能を比較する。
- トランスフォーマーがノイズ耐性学習で失敗または成功する理由を理解し、関数の単純さと感度などの要因を特定する。
- ノイズのある特徴からの学習を改善するために、単純さバイアスを緩和する手法を検討する。
提案手法
- 自己注意ネットワーク(SAN)とLSTMを、iidビットフリップノイズを用いた二値入力タスクでモデリング・訓練する。
- スパース多数/パリティ関数およびランダムk-ジョンタに対して、複数のハイパーパラメータ設定と乱数初期化で学習を評価する。
- ノイズなし一般化誤差とノイズ特性一般化誤差を定量化し、ノイズ耐性学習を評価する。
- 感度を介して関数の単純さを分析し、関数クラス間で f と f_N^*(最適なノイズ付き予測子)を比較する。
- 制御されたトラップ関数実験を実施し、感度の高い解を抑制する損失ペナルティを試して、解決策の有効性を検討する。
実験結果
リサーチクエスチョン
- RQ1トランスフォーマーはパリティとマジョリティタスクにおいてノイズのある入力特徴から基礎的なブール関数を学習できるか。
- RQ2単純さバイアスを持つトランスフォーマーは、関数クラス間でLSTMよりノイズ耐性学習で優れるか、または劣るか。
- RQ3最適なノイズ付き予測子の感度がターゲット関数より低い条件は何で、それが学習にどう影響するか。
- RQ4ノイズの多い解に対する高感度解のペナルティを導入することで、トランスフォーマーは学習の罠から脱出しノイズ耐性学習を改善できるか。
主な発見
- トランスフォーマーはノイズのある特徴からパリティと奇数長のスパース多数を高い割合で確実に学習し、これらのタスクでLSTMを上回る。
- トランスフォーマーは一般にランダムk-ジョンタのノイズ耐性学習に失敗することが多く、ターゲット関数の感度が最適なノイズ付き予測子の感度より高い場合に特に顕著である。
- ノイズデータの最適予測子(f_N^*)は通常、ランダムなブール関数よりも平均感度が低く、ノイズデータで訓練されたトランスフォーマーをサブオプティマルな解へ偏らせる。
- ノイズ付き検証データで誤った、同様の性能を示す関数にトランスフォーマーが罠にはまり得るが、高感度ソリューションを抑制する損失項を追加することで罠から抜け出せる可能性がある。
- LSTMs もノイズ耐性学習に苦労するが、過学習や単純さバイアスの欠如など別の理由による。
- 全体として、特徴ノイズの存在下でブール関数を学習するにはトランスフォーマーは特に効果的でない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。