[论文解读] ZuCo 2.0: A Dataset of Physiological Recordings During Natural Reading and Annotation
ZuCo 2.0 提供了一个免费获取的数据集,包含18名参与者在自然阅读和英语句子任务特定标注过程中同步采集的眼动追踪与脑电图(EEG)记录。该数据集支持对被动阅读与主动语义标注之间认知处理差异的直接比较,关键发现显示,在标注任务中固定次数减少、阅读速度加快,且EEG数据中表现出一致的与固定相关的电位模式。
We recorded and preprocessed ZuCo 2.0, a new dataset of simultaneous eye-tracking and electroencephalography during natural reading and during annotation. This corpus contains gaze and brain activity data of 739 sentences, 349 in a normal reading paradigm and 390 in a task-specific paradigm, in which the 18 participants actively search for a semantic relation type in the given sentences as a linguistic annotation task. This new dataset complements ZuCo 1.0 by providing experiments designed to analyze the differences in cognitive processing between natural reading and annotation. The data is freely available here: https://osf.io/2urht/.
研究动机与目标
- 创建一个全新的、公开可用的数据集,用于捕捉自然阅读和语义标注任务期间的眼动与脑活动。
- 支持对被动阅读与任务驱动标注之间认知处理差异的比较分析。
- 支持利用神经认知基础的生理信号开发和评估自然语言处理模型。
- 为训练和验证自然语言处理中的机器学习模型提供高质量、预处理的生理数据。
- 通过分析标注背后认知过程,提升人类标注语言数据的理解与质量。
提出的方法
- 在两种不同阅读范式下同步记录眼动追踪与脑电图数据:自然阅读和语义关系的任务特定标注。
- 从维基百科收集了739个英语句子——其中349个用于自然阅读,390个用于标注任务。
- 使用标准化的眼动追踪指标(固定次数、持续时间、跳过率)和EEG预处理方法(滤波、伪影去除、分段)。
- 通过将EEG信号锁定到固定起始时间,计算与固定相关的电位(FRPs),以实现对每个词的脑响应分析。
- 应用聚类和时间窗平滑技术,研究固定持续时间对FRP形态的影响。
- 通过受试者层面的指标(阅读速度、遗漏率)以及与先前语料(如ZuCo 1.0和GECO)的比较,验证数据质量。
实验结果
研究问题
- RQ1在语义关系的自然阅读与任务特定标注之间,眼动追踪与EEG模式有何差异?
- RQ2与被动阅读相比,任务特定标注在多大程度上减少了固定次数和阅读时间?
- RQ3与固定相关的电位(FRPs)能否可靠地反映不同阅读条件下认知处理的差异?
- RQ4两种阅读范式中,固定持续时间与词级跳过行为有何变化?
- RQ5该语料中的生理信号在多大程度上可改善或评估自然语言处理模型与标注过程?
主要发现
- 参与者在任务特定标注条件下显著减少了固定次数,阅读速度更快(平均速度:4.81秒/句),相比自然阅读(平均速度:5.84秒/句)。
- 跳过比例(表示未被固定的词)在标注任务中增加,反映出更高效、目标导向的阅读行为。
- 与固定相关的电位(FRPs)在两种任务中均表现出一致的双相正向峰值(约100毫秒和更晚,且与持续时间相关),证实了神经信号的可靠性。
- EEG数据显示,较长的固定时间与FRP中的第二个正向峰值相关,与先前研究一致,表明持续的认知处理。
- 该语料包含739个带有语义关系标注的句子,可直接用于关系抽取和分类任务。
- 该数据集可在 https://osf.io/2urht/ 公开获取,包含原始数据与预处理数据、脚本以及详细的受试者层面指标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。