Skip to main content
QUICK REVIEW

[論文レビュー] EmojiNet: An Open Service and API for Emoji Sense Discovery

Sanjaya Wijeratne, Lakshika Balasuriya|arXiv (Cornell University)|Jul 14, 2017
Natural Language Processing Techniques被引用数 38
ひとこと要約

EmojiNet は、BabelNet から得た 12,904 個の機械可読 sense 定義に、Google News および Twitter コーパスからの文脈語を追加して拡張した大規模なオープンソースサービスおよび REST API です。これにより、絵文字の意味の曖昧性解消と類似度計算が可能となり、sense 重複と Jaccard 類似度スコアが最大 0.60 の 16 クラスタに分かれた絵文字類似度グラフが構築されています。

ABSTRACT

This paper presents the release of EmojiNet, the largest machine-readable emoji sense inventory that links Unicode emoji representations to their English meanings extracted from the Web. EmojiNet is a dataset consisting of: (i) 12,904 sense labels over 2,389 emoji, which were extracted from the web and linked to machine-readable sense definitions seen in BabelNet, (ii) context words associated with each emoji sense, which are inferred through word embedding models trained over Google News corpus and a Twitter message corpus for each emoji sense definition, and (iii) recognizing discrepancies in the presentation of emoji on different platforms, specification of the most likely platform-based emoji sense for a selected set of emoji. The dataset is hosted as an open service with a REST API and is available at http://emojinet.knoesis.org/. The development of this dataset, evaluation of its quality, and its applications including emoji sense disambiguation and emoji sense similarity are discussed.

研究の動機と目的

  • 文脈的およびプラットフォーム依存的な意味を捉える包括的で機械可読な絵文字意味インベントリの不足に対処すること。
  • Google News や Twitter などの多様なテキストソースからの文脈語を統合することで、絵文字の意味の曖昧性解消と類似度の向上を図ること。
  • 研究者や実務家が絵文字の意味とその意味的関係を照会できる、オープンでプログラム可能な REST API を提供すること。
  • 自動評価と人間による評価を通じて、意味マッピングの品質とプラットフォーム固有の絵文字解釈の正確性を評価すること。
  • 前人研究を拡張し、プラットフォーム依存のレンダリング効果を組み込み、スケーラブルで更新可能な絵文字意味論を可能にすること。

提案手法

  • BabelNet の意味定義と、Google News および Twitter コーパスで学習された単語埋め込みを統合し、各絵文字意味に対して文脈的に関連する単語を導出する。
  • 各絵文字をノードとし、エッジが共有される意味ラベルを表す知識グラフを構築し、意味ベースの類似度計算を可能にする。
  • 意味の重複に基づいて、意味的に類似した絵文字のクラスタを特定するため、ラベル伝搬コミュニティ検出アルゴリズムを適用する。
  • Jaccard 類似度を用いて、絵文字ペair間の意味ベースの類似度を定量化し、共有された意味ラベル数を全意味ラベル数で割った比率としてスコアを計算する。
  • データセットを公開ウェブサービスとしてホスティングし、プログラム可能な絵文字意味、文脈語、プラットフォーム固有のレンダリング情報へのアクセスを可能にする。
  • Amazon Mechanical Turk を通じた定性的なユーザースタディを実施し、意味マッピングとプラットフォームベースの解釈の正確性を評価する。

実験結果

リサーチクエスチョン

  • RQ1ウェブ由来およびプラットフォーム固有のデータを用いて、大規模で機械可読な絵文字意味インベントリをどのように構築できるか?
  • RQ2ソーシャルメディアやニュースコーパスからの文脈語は、絵文字意味定義の質と有用性をどの程度向上させるか?
  • RQ3プラットフォーム固有のレンダリングは、絵文字の意図された意味にどのように影響を与えるか? また、これは意味インベントリに体系的に捉えられるか?
  • RQ4Jaccard 類似度のような意味ベースの類似度測定は、絵文字間の意味的関係を効果的にモデル化できるか?
  • RQ5EmojiNet の意味マッピングは、人間がアノテートしたゴールドスタンダードと比較して、どの程度正確で信頼性があるか?

主な発見

  • EmojiNet は、2,389 個のユニークな絵文字を 12,904 個の異なる意味定義にマッピングし、現在知られている最大の機械可読絵文字意味インベントリを形成している。
  • Google News および Twitter コーパスからの文脈語の統合により、絵文字意味定義の文脈的豊かさが顕著に向上した。
  • EmoTwi50 データセットから意味ベースの絵文字類似度グラフが構築され、笑顔の顔、ハート、飲食物など、16 の明確な意味的に類似したクラスタが特定された。
  • 2 つの絵文字間の Jaccard 類似度スコアは最大 0.60 に達し、最高スコアのペアは 15 個の全意味ラベルのうち 9 個を共有していた。
  • 40 個の絵文字について実施した定性的ユーザースタディにより、人間がアノテートした意味解釈とシステムのマッピングとの間で高い整合性が確認され、意味定義の品質が妥当であることが裏付けられた。
  • REST API とオープンデータセットは http://emojinet.knoesis.org/ で公開されており、NLP パipラインや絵文字対応アプリケーションへの統合が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。