[논문 리뷰] On the Predictive Power of Neural Language Models for Human Real-Time Comprehension Behavior
이 논문은 다양한 언어 모델이 인간의 실시간 독서 행동을 예측하는 능력을 평가하고, 낮은 혼동도(perplexity)가 일반적으로 심리계측적 예측력을 향상시키며, 깊은 트랜스포머 모델이 뛰어나고, 구문 지식은 혼동도 이상의 예측 가치를 거의 추가하지 않는다는 결론을 제시한다.
Human reading behavior is tuned to the statistics of natural language: the time it takes human subjects to read a word can be predicted from estimates of the word's probability in context. However, it remains an open question what computational architecture best characterizes the expectations deployed in real time by humans that determine the behavioral signatures of reading. Here we test over two dozen models, independently manipulating computational architecture and training dataset size, on how well their next-word expectations predict human reading time behavior on naturalistic text corpora. We find that across model architectures and training dataset sizes the relationship between word log-probability and reading time is (near-)linear. We next evaluate how features of these models determine their psychometric predictive power, or ability to predict human reading behavior. In general, the better a model's next-word expectations, the better its psychometric predictive power. However, we find nontrivial differences across model architectures. For any given perplexity, deep Transformer models and n-gram models generally show superior psychometric predictive power over LSTM or structurally supervised neural models, especially for eye movement data. Finally, we compare models' psychometric predictive power to the depth of their syntactic knowledge, as measured by a battery of syntactic generalization tests developed using methods from controlled psycholinguistic experiments. Once perplexity is controlled for, we find no significant relationship between syntactic knowledge and predictive power. These results suggest that different approaches may be required to best model human real-time language comprehension behavior in naturalistic reading versus behavior for controlled linguistic materials designed for targeted probing of syntactic knowledge.
연구 동기 및 목표
- 모델 주도 서프라이졀이 자연적 말뭉치에서 인간의 독서 시간을 어떻게 예측하는지 평가한다.
- 아키텍처(LSTM, RNNG, Transformer, n-gram)와 학습 데이터 크기를 비교한다.
- 모델 혼동도가 심리계측적 예측력과 어떤 관련이 있는지 결정한다.
- 구문 일반화가 혼동도를 넘어서 추가 분산을 설명하는지 조사한다.
제안 방법
- 다양한 언어 모델(LSTM, RNNG, Transformer GPT-2, 5-gram)을 네 가지 BLLIP 말뭉치(크기 증가: XS, SM, MD, LG)에서 학습한다.
- Subword Transformer 모델의 경우 BPE 인코딩과 단어 수준 변형을 사용해 단어 확률을 추정한다.
- 서프라이절에서 독서 지수에 대한 회귀에 의해 Delta LogLik를 통해 심리계측적 예측력을 평가하고, 길이와 빈도수를 통제한다.
- Dundee 시력추적 데이터의 독서 시간, Brown 자기주도 독서 데이터, Natural Stories SPRT를 일반화 가법 모델과 선형 회귀로 평가한다.
- 34개의 표적 구문 검사(SG 점수)로 구문 지식을 정량화하고 이를 예측력과 연관지어진다.
- 혼동도와 예측력을 비교하고 아키텍처별 효과를 분석한다.
실험 결과
연구 질문
- RQ1단어 서프라이절과 독서 시간 사이의 관계가 다양한 모델과 학습 데이터에서 선형으로 남아 있는가?
- RQ2모델의 혼동도가 인간의 독서 행동을 예측하는 능력과 어떤 관련이 있는가?
- RQ3구조와 구문 지식이 혼동도를 넘어서 예측력의 추가 분산을 설명하는가?
- RQ4자연스러운 독서 데이터와 제어된 구문 테스트 사이에 예측력의 차이가 있는가?
주요 결과
- 아키텍처와 데이터 크기와 무관하게, 서프라이졀과 독서 시간 간에는 (거의) 선형 관계가 나타난다.
- 더 나은 다음 단어 예측(낮은 혼동도)은 일반적으로 코퍼스 전체에서 심리계측적 예측력(Delta LogLik)을 향상시킨다.
- 깊은 트랜스포머 모델이 가장 강한 심리계측적 예측력을 보이며, 일부 경우에는 n-그램 모델이 혼동도만으로는 예측하는 것 이상으로 우수한 성능을 보일 수 있다.
- 혼동도를 통제한 후에도 구문 지식(SG 점수)은 예측력의 분산을 크게 설명하지 못한다.
- 구문 일반화와 자연스러운 독서를 위한 예측력을 주도하는 요인 사이에 차이가 존재한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.