[论文解读] ConceptNet 5.5: An Open Multilingual Graph of General Knowledge
ConceptNet 5.5 发布了一个大型的多语言常识图,显示将 ConceptNet 与分布式词嵌入(Numberbatch)结合可以在词语相关性、SAT风格类比以及相关任务上取得最新的结果。
Machine learning about language can be improved by supplying it with specific knowledge and sources of external information. We present here a new version of the linked open data resource ConceptNet that is particularly well suited to be used with modern NLP techniques such as word embeddings. ConceptNet is a knowledge graph that connects words and phrases of natural language with labeled edges. Its knowledge is collected from many sources that include expert-created resources, crowd-sourcing, and games with a purpose. It is designed to represent the general knowledge involved in understanding language, improving natural language applications by allowing the application to better understand the meanings behind the words people use. When ConceptNet is combined with word embeddings acquired from distributional semantics (such as word2vec), it provides applications with understanding that they would not acquire from distributional semantics alone, nor from narrower resources such as WordNet or DBPedia. We demonstrate this with state-of-the-art results on intrinsic evaluations of word relatedness that translate into improvements on applications of word vectors, including solving SAT-style analogies.
研究动机与目标
- 提供一个面向通用语言相关知识的开放多语言知识图。
- 将多样的知识源对齐到一个具有 36 个核心关系的统一图。
- 证明 ConceptNet 如何提升词嵌入及下游 NLP 任务。
- 在与分布式嵌入的标准语义任务上评估基于 ConceptNet 的嵌入。
提出的方法
- 通过整合来源(OMCS、Wiktionary 解析、带有目的的游戏、开放多语言 WordNet、JMDict、OpenCyc、DBPedia)来构建 ConceptNet 5.5。
- 将术语表示为语言特定、Unicode 标准化的 URI,拥有一个核心的 36 关系命名空间。
- 通过构建修剪后的 term-context 矩阵并应用 PPMI,然后进行 300 维的 SVD,创建 ConceptNet-PPMI 嵌入。
- 通过将 word2vec 和 GloVe 嵌入与 ConceptNet 关系进行再拟合,并通过全局线性投影合并多嵌入源,开发 ConceptNet Numberbatch。
- 应用后再拟合的均值中心化步骤,以保持向量的可区分性。
- 在词语相关性、SAT 风格类比,以及 Story Cloze 测试上进行评估,以显示性能提升。
实验结果
研究问题
- RQ1ConceptNet 5.5 如何将多语言资源整合成具有公共关系集合的连贯知识图?
- RQ2将 ConceptNet 与分布式词向量结合的嵌入是否在语义任务上优于纯分布式或纯知识图嵌入?
- RQ3ConceptNet 5.5 对本征词语相关性、比例类比(SAT 风格)以及故事理解基准有哪些影响?
- RQ4扩展的再拟合如何利用多语言连接来改进非英语嵌入?
主要发现
- ConceptNet 5.5 包含超过 21M 条边和超过 8M 个节点,跨越 83 种语言,至少有 10k 节点。
- ConceptNet Numberbatch 在词语相关性评估中达到最先进的结果,优于其他嵌入在 MEN-3000、Rare Words、MTurk-771 和 WordSim-353。
- 在 SAT 风格类比任务中,ConceptNet Numberbatch 的准确率为 56.1%,与若干非 ConceptNet 系统竞争甚至超越。
- 使用 Numberbatch 的简单向量袋方法在 Story Cloze 测试中获得 59.4% 的准确率,表明知识增强嵌入的实际好处。
- 该研究表明,将关系知识与分布式语义结合可以带来超越任一单独方法的改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。