[논문 리뷰] EmojiNet: An Open Service and API for Emoji Sense Discovery
EmojiNet는 BabelNet에서 유래한 기계로 읽을 수 있는 12,904개의 의미 정의와 Google 뉴스 및 트위터 코퍼스에서 유래한 맥락 단어를 통합하여 Unicode 이모지와 연결하는 대규모 오픈소스 서비스 및 REST API입니다. 이는 이모지의 의미 해석과 유사도 계산을 가능하게 하며, 의미 겹침과 재커드 유사도 점수까지 0.60에 이르는 16개의 클러스터로 구성된 이모지 유사도 그래프를 제공합니다.
This paper presents the release of EmojiNet, the largest machine-readable emoji sense inventory that links Unicode emoji representations to their English meanings extracted from the Web. EmojiNet is a dataset consisting of: (i) 12,904 sense labels over 2,389 emoji, which were extracted from the web and linked to machine-readable sense definitions seen in BabelNet, (ii) context words associated with each emoji sense, which are inferred through word embedding models trained over Google News corpus and a Twitter message corpus for each emoji sense definition, and (iii) recognizing discrepancies in the presentation of emoji on different platforms, specification of the most likely platform-based emoji sense for a selected set of emoji. The dataset is hosted as an open service with a REST API and is available at http://emojinet.knoesis.org/. The development of this dataset, evaluation of its quality, and its applications including emoji sense disambiguation and emoji sense similarity are discussed.
연구 동기 및 목표
- 맥락적이고 플랫폼에 따라 달라지는 의미를 포괄하는 종합적이고 기계로 읽을 수 있는 이모지 의미 인벤토리의 부족을 해결하기 위해.
- Google 뉴스 및 트위터와 같은 다양한 텍스트 소스에서 유래한 맥락 단어를 통합하여 이모지 의미 해석 및 유사도를 향상시키기 위해.
- 연구자 및 실무자들이 이모지 의미와 그 의미적 관계를 쿼리할 수 있도록 프로그래밍 가능한 액세스 포인트를 REST API를 통해 제공하기 위해.
- 자동화된 평가와 인간 평가를 통해 의미 매핑 품질과 플랫폼별 이모지 해석의 정확도를 평가하기 위해.
- 이전 연구를 확장하여 플랫폼에 따라 달라지는 렌더링 효과를 통합하고 확장 가능하며 업데이트 가능한 이모지 의미 체계를 제공하기 위해.
제안 방법
- BabelNet의 의미 정의를 Google 뉴스 및 트위터 코퍼스에서 학습한 워드 임베딩과 통합하여 각 이모지 의미에 적합한 맥락 단어를 유도합니다.
- 각 이모지가 노드가 되고, 공통된 의미 레이블을 공유하는 간선이 연결된 지식 그래프를 구축하여 의미 기반의 유사도 계산을 가능하게 합니다.
- 의미 겹침을 기반으로 의미적으로 유사한 이모지를 클러스터링하기 위해 레이블 전파 커뮤니티 탐지 알고리즘을 적용합니다.
- 재커드 유사도를 사용하여 이모지 쌍 간의 의미 기반 유사도를 정량화하며, 공유된 의미 레이블 수를 유일한 의미 레이블 수로 나눈 비율로 계산합니다.
- 공개 웹 서비스로서 데이터셋을 호스팅하며, 이모지 의미, 맥락 단어, 플랫폼별 렌더링 정보에 대한 프로그래밍 가능한 액세스를 제공합니다.
- Amazon Mechanical Turk를 통한 정성적 사용자 연구를 수행하여 의미 매핑 및 플랫폼 기반 해석의 정확도를 평가합니다.
실험 결과
연구 질문
- RQ1웹 기반 및 플랫폼별 데이터를 활용하여 대규모 기계로 읽을 수 있는 이모지 의미 인벤토리를 어떻게 구성할 수 있는가?
- RQ2소셜 미디어 및 뉴스 코퍼스에서 유래한 맥락 단어는 이모지 의미 정의의 품질과 유용성을 얼마나 향상시키는가?
- RQ3플랫폼별 렌더링은 이모지의 의도된 의미에 어떤 영향을 미치며, 이를 의미 인벤토리에 체계적으로 포괄할 수 있는가?
- RQ4의미 기반 유사도 측정법, 예를 들어 재커드 유사도는 이모지 간 의미 관계를 효과적으로 모델링할 수 있는가?
- RQ5인간이 애너테이션한 기준 데이터와 비교할 때 EmojiNet의 의미 매핑은 얼마나 정확하고 신뢰할 수 있는가?
주요 결과
- EmojiNet는 2,389개의 고유한 이모지를 12,904개의 서로 다른 의미 정의로 매핑하여 알려진 바 중 가장 큰 기계로 읽을 수 있는 이모지 의미 인벤토리입니다.
- Google 뉴스 및 트위터 코퍼스에서 유래한 맥락 단어의 통합은 이모지 의미 정의의 맥락적 풍부도를 크게 향상시킵니다.
- EmoTwi50 데이터셋에서 유도된 의미 기반 이모지 유사도 그래프는 스마일리 얼굴, 마음, 음료 등의 의미적으로 유사한 이모지 16개의 클러스터를 드러냈습니다.
- 두 이모지 간의 재커드 유사도 점수는 최대 0.60에 이르며, 점수 상위 쌍은 총 15개의 의미 레이블 중 9개를 공유합니다.
- 40개의 이모지에 대한 정성적 사용자 연구를 통해 인간이 애너테이션한 의미 해석과 시스템의 매핑 간 높은 일치도를 확인하였으며, 의미 정의의 품질을 검증하였습니다.
- REST API와 오픈 데이터셋은 http://emojinet.knoesis.org/에서 공개되어 있으며, 자연어 처리 파이프라인과 이모지 인식 애플리케이션에의 통합을 가능하게 합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.