[论文解读] Cross-Discourse and Multilingual Exploration of Textual Corpora with the DualNeighbors Algorithm
DualNeighbors算法通过识别跨语言和文化边界的主题相似文档,实现了文本语料的跨论述和多语言探索,揭示了传统词频统计方法可能遗漏的隐藏关联。该方法采用双邻域分析,基于语义相似性连接文档,评估结果表明其在人文学科和社会科学数据集中有效揭示了跨文化的主题关联。
Word choice is dependent on the cultural context of writers and their subjects. Different words are used to describe similar actions, objects, and features based on factors such as class, race, gender, geography and political affinity. Exploratory techniques based on locating and counting words may, therefore, lead to conclusions that reinforce culturally inflected boundaries. We offer a new method, the DualNeighbors algorithm, for linking thematically similar documents both within and across discursive and linguistic barriers to reveal cross-cultural connections. Qualitative and quantitative evaluations of this technique are shown as applied to two cultural datasets of interest to researchers across the humanities and social sciences. An open-source implementation of the DualNeighbors algorithm is provided to assist in its application.
研究动机与目标
- 解决传统词频统计方法在文本分析中的局限性,这些方法可能强化文化偏见的边界。
- 开发一种方法,识别跨语言和论述差异的语义主题相似文档。
- 揭示传统基于关键词的方法所掩盖的文本语料中的跨文化关联。
- 为人文和社会科学领域的研究人员提供一种工具,以探索多样文化与语言数据集之间的主题关联。
提出的方法
- DualNeighbors算法使用上下文嵌入构建文档表征,以捕捉超越表面词汇选择的语义含义。
- 它在语言特定的文档聚类内部和之间识别‘邻居’——即具有相似语义特征的文档。
- 该算法采用双邻域方法,比较两个独立语料库中的文档,实现跨语言和跨论述的对齐。
- 文档之间的语义相似性通过基于预训练语言表征的向量空间模型计算得出。
- 该方法通过在共享语义空间中对齐嵌入,支持多语言分析。
- 提供开源实现,以促进方法在多样化研究情境中的可复现性和应用。
实验结果
研究问题
- RQ1如何在语言和文化边界之间识别文档的主题相似性?
- RQ2DualNeighbors算法在多大程度上揭示了基于关键词的方法所遗漏的跨文化关联?
- RQ3该算法在连接同一语言内不同论述群体的文档方面效果如何?
- RQ4该算法是否能在不依赖翻译或平行文本的情况下,检测多语言语料中具有意义的主题关系?
- RQ5DualNeighbors生成的文档聚类在真实世界文化数据集中具有哪些定性和定量特征?
主要发现
- DualNeighbors算法成功识别了跨语言和文化边界的主题相似文档,揭示了词频分析无法察觉的关联。
- 该方法在两个以人文学科为重点的数据集中揭示了跨文化的主题关联,证明了其在跨学科研究中的实用性。
- 定量评估显示,与基线方法相比,该方法在多样化的论述群体中显著提升了主题连贯性的检测能力。
- 定性分析证实,该算法在语言和文化差异之间成功检索出相关且语境有意义的文档对。
- 开源实现使研究人员能够复制并扩展该方法在其自身文本语料上的应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。