[論文レビュー] Scaling laws for language encoding models in fMRI
本論文は、より大きなオープンソースの言語モデルと音響モデルが自然言語に対するfMRI応答をより良く予測するかを検証し、モデルサイズとデータ量の対数的スケーリングを見出し、いくつかの脳領域でノイズ天井に近づくことを示している。
Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales logarithmically with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar logarithmic behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.
研究の動機と目的
- 言語モデルのスケーリング法則が、fMRIで測定された脳反応のエンコードへも拡張するかを検討する。
- 複数のサイズにわたるOPTおよびLLaMA言語モデルのエンコード性能を評価する。
- fMRI反応を予測する音響モデル(HuBERT、WavLM、Whisper)のスケーリングを評価する。
- トレーニングデータ量(ストーリー数)がエンコード性能に与える影響を評価する。
- さまざまな脳領域においてエンコード性能がノイズ天井にどの程度近づくかを特徴づける。
提案手法
- 複数サイズにわたって、decoder-only Transformer言語モデル(OPTとLLaMA)から文脈埋め込みを抽出する。
- 音響エンコードのために音声モデル(Whisper、HuBERT、WavLM)から埋め込みを抽出する。
- 語レベルのモデル活性化を、血流動的反応を補正するための時系列遅延を伴う線形リッジ回帰を用いて、fMRIのBOLD応答と整合させる。
- 長い入力に対して隠れ状態を効率的に計算するために、動的コンテキストウィンドウを使用する。
- 意味特徴と音響特徴を組み合わせたエンコードの改善のため、スタッキング回帰アプローチを適用する。
- 説明可能な分散を定量化し相関を正規化するためにノイズ天井を計算する。
実験結果
リサーチクエスチョン
- RQ1OPTとLLaMAのより大きな言語モデルは、より小さなモデルよりもfMRIエンコード性能が改善されるだろうか?
- RQ2言語モデルと音響モデルのトレーニングデータ量(ストーリー数)の増加に伴うエンコード性能のスケーリングはどうなるか?
- RQ3音響モデル(HuBERT、WavLM、Whisper)は、脳エンコードにおける言語モデルと同様のスケーリング法則の対象となるか?
- RQ4エンコードモデルは脳領域全体でどの程度ノイズ天井に近づくか?
- RQ5意味特徴と音響特徴をスタッキングすることで聴覚皮質および関連領域のエンコードを改善できるか?
主な発見
- OPTおよびLLaMAの言語モデルでは、エンコード性能がモデルサイズとおおよそ対数的にスケールし、検証範囲内で小さなモデルから大きなモデルへの改善は約15%である。
- エンコード性能はトレーニングストーリー量にも対数的にスケールし、OPT-125Mでデータを1オーダー増加するごとに約122%の増加を示す。
- 聴覚皮質および高次聴覚領域は、より大きな音響モデルで顕著な改善を示し、Whisperの結果は層に関連した強い性能向上を示している。
- エンコードにおいてLLaMAモデルはOPTモデルをやや上回り、LLaMAは初期層でピーク、OPTは後期層でピーク。
- ノイズ天井分析は、いくつかの領域(precuneusとhigher auditory cortex)がほぼ最適に近い一方、angular gyrusやPFCの一部の領域にはまだ改善の余地がある。
- WhisperとLLaMAを組み合わせたスタッキング回帰は、意味モデリングだけと比べて聴覚皮質のエンコードをさらに改善できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。