Skip to main content
QUICK REVIEW

[论文解读] Network Motifs Analysis of Croatian Literature

Hana Rizvić, Sanda Martinčić-Ipšić|arXiv (Cornell University)|Nov 18, 2014
Cultural and political discourse analysis被引用 1
一句话总结

本研究通过三元组显著性分析(TSP)方法,分析了从五部克罗地亚语文本(四部书籍和一个论坛)导出的有向共现网络中的网络基元(network motifs),检测出过度代表和不足代表的三顶点子图。主要发现是克罗地亚语网络中三边三元组(ID3#10 和 ID3#13)显著过度代表,这归因于该语言的自由词序特性,使其有别于其他语言中此类三元组通常被低估的现象。

ABSTRACT

In this paper we analyse network motifs in the co-occurrence directed networks constructed from five different texts (four books and one portal) in the Croatian language. After preparing the data and network construction, we perform the network motif analysis. We analyse the motif frequencies and Z-scores in the five networks. We present the triad significance profile for five datasets. Furthermore, we compare our results with the existing results for the linguistic networks. Firstly, we show that the triad significance profile for the Croatian language is very similar with the other languages and all the networks belong to the same family of networks. However, there are certain differences between the Croatian language and other analysed languages. We conclude that this is due to the free word-order of the Croatian language.

研究动机与目标

  • 调查克罗地亚语网络的局部结构特性是否与其他语言网络一致。
  • 确定克罗地亚语的自由词序特征是否会影响其与其它语言相比的基元频率。
  • 使用网络基元分析方法,比较五个克罗地亚语数据集(四部书籍和一个论坛)的三元组显著性谱(TSP)。
  • 评估基于基元的分析是否能够检测自然语言网络中的句法与结构差异。

提出的方法

  • 从五部克罗地亚语文本构建有向共现网络,其中顶点代表词语,边代表词语的序列相邻关系。
  • 使用 FANMOD 软件,基于 rand-esu 算法(1,000 个随机化网络)检测网络基元。
  • 计算全部 13 种可能的有向三顶点子图(三元组)的 Z-得分,以评估统计显著性。
  • 使用公式(2)将 Z-得分归一化为三元组显著性谱(TSP)向量,以实现跨数据集比较。
  • 利用 p-值和频率比较验证基元的显著性,必要时调整随机网络参数。
  • 对基元频率和 Z-得分进行统计分析,以识别过度代表的(基元)和不足代表的(反基元)三元组。

实验结果

研究问题

  • RQ1克罗地亚语网络是否表现出与其他分析语言相似的三元组显著性谱?
  • RQ2是否存在因克罗地亚语的自由词序句法而过度代表的特定三元组?
  • RQ3克罗地亚文学文本中的基元频率与其它语言网络相比如何,特别是在三边三元组方面?
  • RQ4网络基元分析能否检测到与句法特征(如词序)相关的自然语言网络结构差异?
  • RQ5克罗地亚语文本的 TSP 是否聚类在一起,表明尽管来源内容不同,仍存在共同的网络家族特征?

主要发现

  • 克罗地亚语网络的三元组显著性谱(TSP)与其它语言的 TSP 大致相似,表明其具有共享的中尺度网络特性。
  • 含两条边的三元组(ID3#1 和 ID3#3)显著过度代表,与其它语言网络中的发现一致。
  • 非同寻常的是,三边三元组 ID3#10 和 ID3#13 在克罗地亚语网络中显著过度代表,这一现象在英语、法语、西班牙语或日语网络中均未观察到。
  • ID3#10 和 ID3#13 的过度代表归因于克罗地亚语的自由词序特性,使得如 'jako ga voli'(非常爱他)等灵活的词序序列可构成有效的句法单位。
  • 所有五个克罗地亚语数据集(书籍和论坛)的 TSP 均表现出一致的基元模式,表明不同文本类型下存在共同的底层网络结构。
  • 结果表明,基于基元的分析对句法和形态特征(如词序)敏感,可能实现对语言的细粒度区分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。