[論文レビュー] On the Predictive Power of Neural Language Models for Human Real-Time Comprehension Behavior
本論文は多様な言語モデルの人間のリアルタイムの読書挙動予測能力を評価し、困惑度が低いほど心理測定的予測力が一般に向上し、深層Transformerモデルが優れている一方で統語知識は困惑度を超える追加予測価値をほとんど提供しない、という結論を示す。
Human reading behavior is tuned to the statistics of natural language: the time it takes human subjects to read a word can be predicted from estimates of the word's probability in context. However, it remains an open question what computational architecture best characterizes the expectations deployed in real time by humans that determine the behavioral signatures of reading. Here we test over two dozen models, independently manipulating computational architecture and training dataset size, on how well their next-word expectations predict human reading time behavior on naturalistic text corpora. We find that across model architectures and training dataset sizes the relationship between word log-probability and reading time is (near-)linear. We next evaluate how features of these models determine their psychometric predictive power, or ability to predict human reading behavior. In general, the better a model's next-word expectations, the better its psychometric predictive power. However, we find nontrivial differences across model architectures. For any given perplexity, deep Transformer models and n-gram models generally show superior psychometric predictive power over LSTM or structurally supervised neural models, especially for eye movement data. Finally, we compare models' psychometric predictive power to the depth of their syntactic knowledge, as measured by a battery of syntactic generalization tests developed using methods from controlled psycholinguistic experiments. Once perplexity is controlled for, we find no significant relationship between syntactic knowledge and predictive power. These results suggest that different approaches may be required to best model human real-time language comprehension behavior in naturalistic reading versus behavior for controlled linguistic materials designed for targeted probing of syntactic knowledge.
研究の動機と目的
- モデル駆動の surprisal が自然的コーパス全体での人間の読書時間をどのように予測するかを評価する。
- アーキテクチャ(LSTM、RNNG、Transformer、n-gram)と学習データサイズを比較する。
- モデル perplexity が心理測定的予測力とどのように関連するかを決定する。
- 統語一般化が perplexity を超える追加の分散を説明するかを検討する。
提案手法
- LSTM, RNNG, Transformer GPT-2, 5-gram を含む一連の言語モデルを、サイズが増加する4つのBLLIPコーパス(XS、SM、MD、LG)で訓練する。
- サブワードTransformerモデルにはBPEエンコードと語彙レベルのバリアントを用いて語の確率を推定する。
- 読書測定を surprisal で回帰させる際の per-token Delta LogLik を用いて心理測定的予測力を評価し、長さと頻度を制御する。
- Dundee eye-tracking、Brown self-paced reading、Natural Stories SPRT の読書時間データを、一般化加法モデルと線形回帰で評価する。
- 34 件の標的統語テスト(SGスコア)で統語知識を定量化し、予測力と関連づける。
- perplexity と予測力を比較し、アーキテクチャ特有の効果を分析する。
実験結果
リサーチクエスチョン
- RQ1語の surprisal と読書時間の関係は、多様なモデルと訓練データにわたって線形のままか?
- RQ2モデルの perplexity は人間の読書行動を予測する能力とどのように関係するか?
- RQ3アーキテクチャと統語知識は perplexity を超える追加の分散を予測力に説明するか?
- RQ4自然主義的な読書データと制御された統語テストの間で予測力に差があるか?
主な発見
- アーキテクチャおよびデータサイズを問わず、surprisalと読書時間はほぼ線形の関係を示す。
- より良い次語予測(低い perplexity)は、コーパス全体で一般に心理測定的予測力(Delta LogLik)を向上させる。
- 深層Transformerモデルは最も強い心理測定的予測力を示す。n-gramモデルは場合によっては perplexity のみに基づく期待を上回ることがある。
- perplexity を制御した後、統語知識(SGスコア)は予測力の分散を有意に説明しない。
- 自然主義的読書における統語一般化を駆動する要因と予測力を駆動する要因との間には解 dissociated ある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。