[论文解读] Orthographic Structuring of Human Speech and Texts: Linguistic Application of Recurrence Quantification Analysis
本文提出将递归定量分析(RQA)作为一种方法,用于量化不同语言中书面和口语文本的正字法结构。通过对意大利语、美式英语和瑞典语的诗歌及口语样本中的字母序列进行分析,RQA揭示了语言无关的一致性结构复杂性模式,表明仅凭正字法形式即可编码深层的语调组织结构。
A methodology based upon recurrence quantification analysis is proposed for the study of orthographic structure of written texts. Five different orthographic data sets (20th century Italian poems, 20th century American poems, contemporary Swedish poems with their corresponding Italian translations, Italian speech samples, and American speech samples) were subjected to recurrence quantification analysis, a procedure which has been found to be diagnostically useful in the quantitative assessment of ordered series in fields such as physics, molecular dynamics, physiology, and general signal processing. Recurrence quantification was developed from recurrence plots as applied to the analysis of nonlinear, complex systems in the physical sciences, and is based on the computation of a distance matrix of the elements of an ordered series (in this case the letters consituting selected speech and poetic texts). From a strictly mathematical view, the results show the possibility of demonstrating invariance between different language exemplars despite the apparent low-level of coding (orthography). Comparison with the actual texts confirms the ability of the method to reveal recurrent structures, and their complexity. Using poems as a reference standard for judging speech complexity, the technique exhibits language independence, order dependence and freedom from pure statistical characteristics of studied sequences, as well as consistency with easily identifiable texts. Such studies may provide phenomenological markers of hidden structure as coded by the purely orthographic level.
研究动机与目标
- 开发一种定量方法,用于评估书面和口语语言的正字法结构,且独立于语音或语义内容。
- 检验递归定量分析(RQA)是否能检测到在多样化语言样本中一致的、依赖顺序的结构模式。
- 评估该方法在语言翻译过程中保持结构不变性的能力,特别是在诗歌文本中。
- 使用 RQA 描述符比较口语样本与诗歌文本的结构复杂性。
- 确定 RQA 是否可作为纯粹在正字法层面上编码的隐藏语言结构的表征指标。
提出的方法
- 将 RQA 应用于正字法文本中的字母序列,将每个字符视为时间序列中的一个点。
- 通过时间延迟嵌入重建相空间,计算字母序列嵌入状态之间的距离矩阵。
- 计算关键的 RQA 指标——重复率(REC)和确定性(DET),以量化重复性和确定性结构。
- 该方法应用于五个数据集:20 世纪的意大利语和美式英语诗歌、带有意大利语翻译的瑞典语诗歌,以及转录的意大利语和美式英语口语样本。
- 对原文与随机打乱的对照组进行统计比较,以分离出非随机的结构特征。
- 计算不同语言对(如瑞典语与意大利语翻译)之间 RQA 参数(REC 和 DET)的相关性,以检验语言不变性。
实验结果
研究问题
- RQ1RQA 是否能检测并量化独立于语音或语义内容的书面文本中的正字法结构?
- RQ2RQA 方法是否能在不同语言中揭示一致的结构模式,例如在翻译的诗歌文本中?
- RQ3口语样本的 RQA 描述符(REC 和 DET)与诗歌文本相比如何?
- RQ4RQA 参数在多大程度上反映了内在的语言复杂性,而非统计或分布特征?
- RQ5RQA 是否可作为可靠、语言无关的指标,用于比较语言文本的结构复杂性?
主要发现
- RQA 在多种语言和文本类型中成功识别出重复且具有确定性的结构,表现出高度的一致性。
- 瑞典语诗歌与其意大利语翻译之间的相关性很强(REC 的 r = 0.85,DET 的 r = 0.90,p < 0.01),证实了对语调结构的语言无关检测。
- 意大利语和美式英语口语样本的 REC 与 DET 之间均表现出显著相关性(分别为 r = 0.89 和 r = 0.88,p < 0.001),表明其与诗歌具有共享的结构组织。
- 美式英语口语样本的 REC(0.416)和 DET(20.00)均显著低于意大利语样本(REC:0.676,DET:27.94),表明美式英语口语具有更高的复杂性(p < 0.0001)。
- 对所有文本类型的综合分析揭示了 REC 与 DET 之间存在强烈的线性标度关系(r = 0.87,p < 0.001),支持将 REC-DET 平面用作复杂性指数。
- 所有文本的随机打乱版本均表现出显著降低的 RQA 值,证实所检测到的结构是非随机且依赖顺序的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。