[논문 리뷰] Comparing Transformers and RNNs on predicting human sentence processing data.
이 연구는 인간 문장 처리의 인지 모델로써 트랜스포머와 RNN을 비교하기 위해, 둘 다 실험적 자극에서 놀라움을 예측하도록 훈련시킨다. 트랜스포머는 자가 속도 읽기 시간과 N400 강도를 설명하는 데 RNN보다 뛰어나지만, 시선 지속 시간에는 그렇지 않아, 특정 독서 노력 측정치에 대한 모델링 능력이 뛰어나다는 것을 시사한다.
Recurrent neural networks (RNNs) have long been an architecture of interest for computational models of human sentence processing. The more recently introduced Transformer architecture has been shown to outperform recurrent neural networks on many natural language processing tasks but little is known about their ability to model human language processing. It has long been thought that human sentence reading involves something akin to recurrence and so RNNs may still have an advantage over the Transformer as a cognitive model. In this paper we train both Transformer and RNN based language models and compare their performance as a model of human sentence processing. We use the trained language models to compute surprisal values for the stimuli used in several reading experiments and use mixed linear modelling to measure how well the surprisal explains measures of human reading effort. Our analysis shows that the Transformers outperform the RNNs as cognitive models in explaining self-paced reading times and N400 strength but not gaze durations from an eye-tracking experiment.
연구 동기 및 목표
- 비재귀적 설계를 가졌음에도 불구하고 트랜스포머가 전통적인 RNN보다 인간 문장 처리를 더 잘 모델링할 수 있는지 평가하기 위해.
- 트랜스포머와 RNN 기반 신경어휘모델이 심리언어학적 지표를 사용해 인간의 독서 노력 예측 능력을 얼마나 잘 구현하는지 조사하기 위해.
- 자기 속도 읽기 시간, N400 강도, 시선 지속 시간과 같은 다양한 독서 측정치에 대해 양 모델에서 유도된 놀라움의 설명력을 비교하기 위해.
- 기존의 인간 언어 이해 모델링에 필수적이라고 여겨졌던 처리의 재귀성은 여전히 필요한가, 주목적은 주로 인지적 타당성에 중점을 두고 있다.
제안 방법
- 동일한 코퍼스를 사용해 트랜스포머와 RNN 기반 언어 모델을 훈련시켜 동일한 학습 조건을 확보하기 위해.
- 모델의 확률 추정치를 사용해 실험적 자극의 각 단어에 대해 놀라움 값을 계산하기 위해.
- 혼합 선형 모델을 적용해 놀라움이 인간 독서 측정치(자기 속도 읽기 시간, N400 강도, 시선 지속 시간)를 얼마나 잘 예측하는지 평가하기 위해.
- 생태학적 타당성을 확보하기 위해 출판된 독서 실험에서 사용된 표준화된 심리언어학적 자극을 사용하기 위해.
- 다양한 독서 측정치에서 트랜스포머와 RNN의 놀라움 예측 성능을 비교하기 위해 통계 모델링을 활용하기 위해.
- 특히 인지적 타당성에 중점을 두고 인간 처리 노력의 분산을 설명하는 데 모델 성능을 집중적으로 분석하기 위해.
실험 결과
연구 질문
- RQ1자기 속도 읽기 시간으로 측정된 인간 문장 처리 노력에 대해 트랜스포머가 RNN보다 뛰어나게 성능을 보이는가?
- RQ2트랜스포머에서 유도된 놀라움이 RNN에서 유도된 놀라움보다 N400 강도를 더 잘 예측할 수 있는가?
- RQ3트랜스포머와 RNN이 독서 중 시선 지속 시간을 예측하는 데 능력에 유의미한 차이가 있는가?
- RQ4트랜스포머의 비재귀적 어텐션 메커니즘은 여전히 인간 문장 처리의 인지 이론과 부합하는가?
- RQ5아키텍처 선택(재귀 대 비재귀 어텐션)이 심리언어학적 맥락에서 신경어휘모델의 설명력에 얼마나 영향을 미치는가?
주요 결과
- 트랜스포머는 자기 속도 읽기 시간을 설명하는 데 RNN보다 유의미하게 뛰어나며, 독서 노력 예측 능력이 더 뛰어나다는 것을 시사한다.
- 트랜스포머에서 유도된 놀라움은 RNN에서 유도된 놀라움보다 N400 강도의 분산을 더 큰 비율로 설명한다.
- 어느 모델도 시선 지속 시간 예측에서 명백한 우위를 보이지 않아, 시선 지속 시간은 놀라움 외의 요소에 의해 영향을 받을 수 있음을 시사한다.
- 결과는 재귀성이 인간 문장 처리 모델링에 필수적이라는 가정을 도전하며, 재귀가 없음에도 불구하고 트랜스포머가 핵심 독서 측정치에서 더 뛰어난 성능을 보임을 보여준다.
- 모델 간 성능 격차는 독서 시간과 N400 반응과 같은 인지 부하 및 예측 오차와 관련된 측정치에서 가장 두드러진다.
- 연구 결과는 트랜스포머와 같은 어텐션 기반 아키텍처가 인간 언어 이해의 인지 모델링에서 RNN의 유효하고 잠재적으로 열등한 대안이 될 수 있음을 지지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.