Skip to main content
QUICK REVIEW

[논문 리뷰] OpenHowNet: An Open Sememe-based Lexical Knowledge Base

Fanchao Qi, Chenghao Yang|arXiv (Cornell University)|2019. 01. 28.
Natural Language Processing Techniques참고 문헌 15인용 수 25
한 줄 요약

OpenHowNet는 HowNet를 기반으로 한 개방형, 세미드 기반 어휘 지식 기반으로, 100,000개 이상의 단어 의미를 세미드로 주석 처리한 정제된 데이터셋을 제공하며, 웹 인터페이스와 API를 통해 검색, 시각화, 의미 유사도 계산이 가능합니다. 주요 기여는 세미드 기반 NLP 연구를 위한 개방형, 확장 가능하고 접근 가능한 인프라입니다.

ABSTRACT

In this paper, we present an open sememe-based lexical knowledge base OpenHowNet. Based on well-known HowNet, OpenHowNet comprises three components: core data which is composed of more than 100 thousand senses annotated with sememes, OpenHowNet Web which gives a brief introduction to OpenHowNet as well as provides online exhibition of OpenHowNet information, and OpenHowNet API which includes several useful APIs such as accessing OpenHowNet core data and drawing sememe tree structures of senses. In the main text, we first give some backgrounds including definition of sememe and details of HowNet. And then we introduce some previous HowNet and sememe-based research works. Last but not least, we detail the constituents of OpenHowNet and their basic features and functionalities. Additionally, we briefly make a summary and list some future works.

연구 동기 및 목표

  • HowNet를 기반으로 한 개방형, 접근 가능하고 확장 가능한 어휘 지식 기반을 구축하여 세미드 기반 NLP 연구를 지원한다.
  • 폐쇄적이거나 접근하기 어려운 언어 자료의 한계를 해결하기 위해 HowNet의 핵심 데이터를 개방한다.
  • 웹 인터페이스와 API와 같은 도구를 제공하여 세미드 주석 처리된 데이터의 탐색, 질의, 통합을 용이하게 한다.
  • 세미드 예측, 다국어 지식 전이, 의미 표현 학습 분야의 향후 연구를 지원한다.
  • 기계 학습과 상호작용하는 인간-중심의 방법을 통해 주석 일관성과 스케일을 향상시킨다.

제안 방법

  • HowNet를 확장하여 핵심 데이터—100,000개 이상의 세미드 주석 처리된 단어 의미—를 개방형으로 다운로드 가능한 형식으로 공개한다.
  • OpenHowNet Web을 개발하여 사용자가 단어 의미를 브라우징하고, 세미드 트리를 시각화하며, 의미적으로 유사한 의미를 검색할 수 있도록 하는 공개 웹 인터페이스를 제공한다.
  • OpenHowNet API를 구축하여 기계 접근을 가능하게 하며, 의미 및 세미드 검색, 세미드 트리 렌더링, 의미 유사도 계산 등의 기능을 제공한다.
  • 웹 및 API에 세미드 기반 의미 유사도 알고리즘(Liu & Li, 2002)을 통합하여 의미 유사도 순위를 매긴다.
  • 후속 NLP 작업을 위한 SST 모델(Niu et al., 2017)을 통해 학습된 사전 훈련된 단어, 의미, 세미드 임베딩을 제공한다.
  • 기계 학습과 상호작용하는 주석을 통합하여 향후 다국어 확장과 자동 세미드 예측을 지원한다.

실험 결과

연구 질문

  • RQ1대규모 세미드 주석 처리된 어휘 지식 기반을 어떻게 개방형으로 제공하여 NLP 연구를 지원할 수 있는가?
  • RQ2연구자가 세미드 주석 처리된 단어 의미를 탐색하고 활용하는 데 가장 효과적인 기능은 무엇인가?
  • RQ3개방형 프로그래밍 인터페이스(API)와 웹 포털이 어휘 의미 자료의 접근성과 사용성에 얼마나 기여하는가?
  • RQ4기계 학습과 상호작용하는 주석 방법을 어떻게 조합하여 세미드 주석의 일관성과 스케일을 향상시킬 수 있는가?
  • RQ5기존의 세미드 지식을 다른 언어로 전이하여 다국어 의미 자료를 구축할 잠재력은 무엇인가?

주요 결과

  • OpenHowNet는 최신 HowNet 버전 기준으로 229,000개 이상의 단어 의미, 127,266개의 고유한 중국어 어휘, 104,025개의 고유한 영어 어휘, 2,187개의 세미드를 제공한다.
  • OpenHowNet 웹 인터페이스를 통해 사용자는 Liu와 Li(2002)의 유사도 방법을 사용하여 의미 정의, 세미드 트리, 품사 태그, 감성, 의미적으로 유사한 의미를 탐색할 수 있다.
  • OpenHowNet API는 의미 및 세미드 검색, 세미드 트리 렌더링, 의미 유사도 계산 기능을 포함하여 세미드 데이터에 프로그래밍 방식으로 접근할 수 있도록 지원한다.
  • SST 모델(Niu et al., 2017)을 통해 학습된 사전 훈련된 단어, 의미, 세미드 임베딩이 NLP 응용 프로그램에서 사용 가능하게 공개되어 있다.
  • 프로젝트는 단순한 등록을 통해 전체 데이터셋과 임베딩의 무료 다운로드를 허용하며, 업데이트 사항은 이메일로 통보된다.
  • 향후 작업으로는 기계 학습을 통한 주석 일관성 향상, 자동 예측과 상호작용 주석의 융합, 다국어 환경으로의 확장이 포함된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.