Skip to main content
QUICK REVIEW

[論文レビュー] ConceptNet 5.5: An Open Multilingual Graph of General Knowledge

Robert E. Speer, Joshua Chin|arXiv (Cornell University)|Dec 12, 2016
Natural Language Processing Techniques被引用数 844
ひとこと要約

ConceptNet 5.5 は大規模な多言語一般世界知識グラフを公開し、ConceptNet を分布表現(Numberbatch)と組み合わせることで、単語関連度、SAT様類推、関連タスクで最先端の結果を示します。

ABSTRACT

Machine learning about language can be improved by supplying it with specific knowledge and sources of external information. We present here a new version of the linked open data resource ConceptNet that is particularly well suited to be used with modern NLP techniques such as word embeddings. ConceptNet is a knowledge graph that connects words and phrases of natural language with labeled edges. Its knowledge is collected from many sources that include expert-created resources, crowd-sourcing, and games with a purpose. It is designed to represent the general knowledge involved in understanding language, improving natural language applications by allowing the application to better understand the meanings behind the words people use. When ConceptNet is combined with word embeddings acquired from distributional semantics (such as word2vec), it provides applications with understanding that they would not acquire from distributional semantics alone, nor from narrower resources such as WordNet or DBPedia. We demonstrate this with state-of-the-art results on intrinsic evaluations of word relatedness that translate into improvements on applications of word vectors, including solving SAT-style analogies.

研究の動機と目的

  • 一般的な言語関連知識に焦点を当てたオープンで多言語の知識グラフを提供する。
  • 36 のコアリレーションを用いて多様な知識源を統一グラフに整合させる。
  • ConceptNet が語彙埋め込みと下流の NLP タスクを向上させる方法を示す。
  • ConceptNet ベースの埋め込みを分布的埋め込みと標準的な意味タスクで比較評価する。

提案手法

  • ソースを統合して ConceptNet 5.5 を構築する(OMCS、Wiktionary のパース、目的を持つゲーム、Open Multilingual WordNet、JMDict、OpenCyc、DBPedia)。
  • 用語をコアの 36 リレーション空間を持つ言語特有の Unicode 正規化 URI として表現する。
  • PPMI を適用して剪定済みの term-context 行列を構築し、3 00 次元の SVD を適用して ConceptNet-PPMI 埋め込みを作成する。
  • ConceptNet のリレーションと複数の埋め込み源をグローバルな線形射影で統合し、ConceptNet Numberbatch を開発する。
  • 後処理としての平均中心化を用いてベクトルの識別性を維持する。
  • 語彙関連度、SAT様類推、Story Cloze テストで評価し、パフォーマンスの向上を実証する。

実験結果

リサーチクエスチョン

  • RQ1ConceptNet 5.5 は多言語リソースを共通のリレーション集合で統合した一貫した知識グラフにどのように統合できるか?
  • RQ2ConceptNet と分布的語彙ベクトルを組み合わせた埋め込みは、純粋な分布表現埋め込みや純粋な知識グラフ埋め込みを超えるセマンティックタスクの性能を示すか?
  • RQ3ConceptNet 5.5 は intrinsic な語彙関連性、等比的類推(SAT様)、ストーリ理解のベンチマークにどのような影響を与えるか?
  • RQ4拡張されたリフティングは多言語の結びつきを活用して非英語の埋め込みをどのように改善するか?

主な発見

  • ConceptNet 5.5 は 2100万を超えるエッジと 800万を超えるノードを 83 言語で含み、少なくとも 10k ノードを持つ。
  • ConceptNet Numberbatch は語彙関連度評価で最先端の結果を達成し、MEN-3000、Rare Words、MTurk-771、WordSim-353 で他の埋め込みを上回った。
  • SAT様類推タスクで ConceptNet Numberbatch は 56.1% の正確さを達成し、いくつかの非 ConceptNet システムと競合または上回る。
  • Numberbatch を用いた単純なベクトルの袋(bag-of-vectors)アプローチは Story Cloze Test で 59.4% の正確さを示し、知識強化埋め込みの実用的利益を示す。
  • 本研究はリレーショナル知識と分布意味表現を組み合わせることで、いずれか一方だけのアプローチを超える改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。