[论文解读] EmojiNet: An Open Service and API for Emoji Sense Discovery
EmojiNet 是一个大规模、开源的服务和 REST API,将 Unicode 表情符号映射到 12,904 个源自 BabelNet 的机器可读义原义,并通过 Google 新闻和 Twitter 语料库中的上下文词汇进行增强。它支持表情符号义原消歧和相似性计算,基于义原重叠和 Jaccard 相似性分数,构建了包含 16 个聚类的 emoji 相似性图谱,相似性分数最高达 0.60。
This paper presents the release of EmojiNet, the largest machine-readable emoji sense inventory that links Unicode emoji representations to their English meanings extracted from the Web. EmojiNet is a dataset consisting of: (i) 12,904 sense labels over 2,389 emoji, which were extracted from the web and linked to machine-readable sense definitions seen in BabelNet, (ii) context words associated with each emoji sense, which are inferred through word embedding models trained over Google News corpus and a Twitter message corpus for each emoji sense definition, and (iii) recognizing discrepancies in the presentation of emoji on different platforms, specification of the most likely platform-based emoji sense for a selected set of emoji. The dataset is hosted as an open service with a REST API and is available at http://emojinet.knoesis.org/. The development of this dataset, evaluation of its quality, and its applications including emoji sense disambiguation and emoji sense similarity are discussed.
研究动机与目标
- 解决缺乏全面、机器可读的表情符号义原词库的问题,以捕捉上下文和平台依赖的含义。
- 通过整合来自 Google 新闻和 Twitter 等多样化文本来源的上下文词汇,提升表情符号义原消歧和相似性的效果。
- 通过 REST API 为研究人员和实践者提供开放、程序化的访问接口,用于查询表情符号义原及其语义关系。
- 通过自动化和人工评估,评估义原映射和平台特定表情符号解释的质量。
- 在先前工作的基础上,整合平台依赖的渲染效果,实现可扩展、可更新的表情符号语义体系。
提出的方法
- 将 BabelNet 的义原定义与在 Google 新闻和 Twitter 语料库上训练的词嵌入相结合,为每个表情符号义原推导出上下文相关的词汇。
- 构建一个知识图谱,其中每个表情符号为一个节点,边代表共享的义原标签,从而支持基于义原的相似性计算。
- 应用标签传播社区检测算法,基于义原重叠识别语义相似的表情符号聚类。
- 使用 Jaccard 相似性量化表情符号对之间的基于义原的相似性,分数计算方式为共享义原标签与唯一义原标签总数的比值。
- 将数据集托管为公共网络服务,并提供 REST API,支持程序化访问表情符号义原、上下文词汇和平台特定的渲染信息。
- 通过 Amazon Mechanical Turk 开展定性用户研究,评估义原映射和基于平台的解释的准确性。
实验结果
研究问题
- RQ1如何利用网络获取的数据和平台特定的数据,构建大规模、机器可读的表情符号义原词库?
- RQ2来自社交媒体和新闻语料库的上下文词汇在多大程度上提升了表情符号义原定义的质量和实用性?
- RQ3平台特定的渲染效果如何影响表情符号的意图含义,是否可以系统性地将其纳入语义词库?
- RQ4基于义原的相似性度量方法(如 Jaccard 相似性)能否有效建模表情符号之间的语义关系?
- RQ5与人工标注的黄金标准相比,EmojiNet 中的义原映射在准确性和可靠性方面表现如何?
主要发现
- EmojiNet 将 2,389 个唯一表情符号映射到 12,904 个不同的义原定义,构成了目前已知最大的机器可读表情符号义原词库。
- 整合 Google 新闻和 Twitter 语料库中的上下文词汇,显著增强了表情符号义原定义的上下文丰富度。
- 基于 EmoTwi50 数据集构建了基于义原的表情符号相似性图谱,揭示了 16 个语义相似的表情符号聚类,例如笑脸、心形和饮料类。
- 两个表情符号之间的 Jaccard 相似性分数最高可达 0.60,得分最高的组合在 15 个总义原标签中有 9 个重叠。
- 针对 40 个表情符号的定性用户研究证实,人工标注的义原解释与系统映射高度一致,验证了义原定义的质量。
- REST API 和开放数据集已公开发布,访问地址为 http://emojinet.knoesis.org/,可集成至 NLP 流程和表情符号感知的应用程序中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。