QUICK REVIEW

[论文解读] Analogical Reasoning on Chinese Morphological and Semantic Relations

Li Shen, Zhe Zhao|arXiv (Cornell University)|May 12, 2018

Natural Language Processing Techniques参考文献 16被引用 60

一句话总结

论文构建了 CA8，一个包含 68 种形态关系和 28 种语义关系的面向中文的大型类比推理基准（17813 个问题），并分析向量表示、上下文特征和语料库如何影响密集和稀疏嵌入下的中文类比任务。

ABSTRACT

Analogical reasoning is effective in capturing linguistic regularities. This paper proposes an analogical reasoning task on Chinese. After delving into Chinese lexical knowledge, we sketch 68 implicit morphological relations and 28 explicit semantic relations. A big and balanced dataset CA8 is then built for this task, including 17813 questions. Furthermore, we systematically explore the influences of vector representations, context features, and corpora on analogical reasoning. With the experiments, CA8 is proved to be a reliable benchmark for evaluating Chinese word embeddings.

研究动机与目标

通过类比推理研究中文的语言规律。
构建一个大型、平衡的中文类比基准（CA8），结合形态关系和语义关系。
评估向量表示、上下文特征和训练语料对类比推理表现的影响。
评估 CA8 作为评估中文词嵌入的基准的可靠性。

提出的方法

从汉语言词汇知识中定义 68 种隐性形态关系和 28 种显性语义关系。
构建 CA8，包含 17813 个类比问题，并确保跨关系的平衡。
使用包含向量偏置的方法（如 3COSMUL）用各种表示来解决类比问题。
在多种上下文特征（词、n-gram、字符）和语料下比较密集（SGNS）和稀疏（PPMI）向量表示。
使用 OpenCC 进行简体转换和 HanLP 进行分词的数据预处理；按照 Levy and Goldberg (2014) 标准化评估设置。
发布 CA8 以及 36 个开源中文词嵌入以实现可重复的基准测试。

实验结果

研究问题

RQ1密集和稀疏词向量在类比任务中捕捉中文形态和语义规律的程度如何？
RQ2上下文特征（词、n-gram、字符）对中文类比表现的影响是什么？
RQ3训练语料的规模和领域对中文词嵌入的类比推理有何影响？
RQ4CA8 是否是评估中文词嵌入在形态和语义关系上的可靠基准？

主要发现

SGNS（dense）表示在 CA8 的形态关系类比中表现更好，而 PPMI（sparse）在语义关系上更出色。
纳入 ngram 和字符特征显著提升 CA8 的表现，特别是在形态关系方面。
更大更具多样性的语料库（Combination）在大多数类别中提高准确性，显示出领域和规模效应。
CA8 提供比翻译后的 CA_translated 数据集更广泛、更加平衡的评估，便于更好评估中文嵌入。
CA8 在最佳配置下达到最高 68.0% 的准确率，凸显中文类比推理仍存在挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。