Skip to main content
QUICK REVIEW

[논문 리뷰] JRC-Names: A freely available, highly multilingual named entity resource

Ralf Steinberger, Bruno Pouliquen|arXiv (Cornell University)|2013. 09. 24.
Topic Modeling참고 문헌 8인용 수 55
한 줄 요약

이 논문은 205,000개 이상의 인명 및 단체명과 약 205,000개의 철자 변형을 포함하는 무료로 이용 가능한 다국어 명명된 실체 자원인 JRC-Names를 소개한다. 이 자원은 20개 이상의 문자 집합과 수많은 언어를 아우르며, 7년간의 대규모 뉴스 분석과 위키백과 마이닝을 통해 구축되었다. 이름 검색, 머신러닝 학습 데이터 생성, 기계 번역 향상 등의 응용 분야를 지원하며, 매일 업데이트되며 형태소 변화까지 잘 처리한다.

ABSTRACT

This paper describes a new, freely available, highly multilingual named entity resource for person and organisation names that has been compiled over seven years of large-scale multilingual news analysis combined with Wikipedia mining, resulting in 205,000 per-son and organisation names plus about the same number of spelling variants written in over 20 different scripts and in many more languages. This resource, produced as part of the Europe Media Monitor activity (EMM, http://emm.newsbrief.eu/overview.html), can be used for a number of purposes. These include improving name search in databases or on the internet, seeding machine learning systems to learn named entity recognition rules, improve machine translation results, and more. We describe here how this resource was created; we give statistics on its current size; we address the issue of morphological inflection; and we give details regarding its functionality. Updates to this resource will be made available daily.

연구 동기 및 목표

  • 인명 및 단체명에 대한 대규모로 접근 가능한 다국어 명명된 실체 자원을 구축하기 위해.
  • 다양한 언어와 문자 체계에서 발생하는 이름의 다양성과 형태소 변화 문제를 해결하기 위해.
  • 개선된 이름 검색, 머신러닝 학습, 기계 번역 향상과 같은 실용적인 NLP 응용 분야를 지원하기 위해.
  • 뉴스 및 위키백과와 같은 실제 데이터 소스에서 유래한 지속적으로 업데이트되는 자원을 제공하기 위해.
  • 다국어 환경에서의 다국어 및 다중 스크립트 명명된 실체 처리를 가능하게 하기 위해.

제안 방법

  • 자원은 유럽 미디어 모니터링(Europe Media Monitor, EMM) 시스템를 통해 수집한 다국어 뉴스 데이터의 대규모 분 析를 통해 구축되었다.
  • 다양한 언어와 문자 체계에서 인명 및 단체명을 추출하고 검증하기 위해 위키백과 마이닝 기법을 사용하였다.
  • 명명된 실체는 정규화되어 기준 형태로 연결되었으며, 철자 변형은 체계적으로 수집 및 저장되었다.
  • 형태소 변화 문제는 다양한 문법적 격조사 및 어형 변화 형태를 포함시켜 다루었다.
  • 넓은 언어적 커버리지 확보를 위해 7년간의 지속적인 데이터 수집 및 정제 과정을 거쳐 데이터셋을 구축하였다.
  • 생산 및 연구 용도에 적합하도록 자원의 최신성과 관련성을 유지하기 위해 매일 업데이트를 제공한다.

실험 결과

연구 질문

  • RQ1뉴스 및 위키백과와 같은 다양한 데이터 소스에서 체계적으로 대규모 다국어 명명된 실체 자원을 어떻게 구축할 수 있는가?
  • RQ2형태소 변형과 문자 체계의 다양성이 명명된 실체 인식 및 정규화에 미치는 영향은 무엇인가?
  • RQ3무료로 이용 가능하고 지속적으로 업데이트되는 명명된 실체 자원은 기계 번역 및 정보 검색과 같은 후속 NLP 작업을 어떻게 향상시킬 수 있는가?
  • RQ4다양한 스크립트와 언어를 지원하는 다국어 명명된 실체 자원의 규모와 언어 커버리지는 어느 정도인가?
  • RQ5이러한 자원을 사용하여 명명된 실체 인식에서 머신러닝 시스템의 학습 데이터를 어떻게 효과적으로 제공할 수 있는가?

주요 결과

  • JRC-Names 자원은 205,000개의 인명 및 단체명을 포함하며, 각각 약 205,000개의 철자 변형과 연관되어 있어 총 약 410,000개의 고유한 이름 항목을 형성한다.
  • 이 데이터셋은 20개 이상의 다른 글자 체계를 아우르며, 다국어 및 다중 스크립트 처리를 가능하게 한다.
  • 자원은 언어별 성별 및 격조사 변화를 포함한 체계적인 형태소 변화 처리를 포함하고 있다.
  • 뉴스 및 위키백과와 같은 실제 세계의 소스에서 유래하여 높은 관련성과 언어 다양성을 확보하였다.
  • 매일 업데이트가 제공되어 자원이 최신 상태를 유지하며, 생산 및 연구 응용 분야에 적합하다.
  • 자원은 무료로 이용 가능하며, 이름 검색, 머신러닝 학습, 기계 번역 향상과 같은 다양한 NLP 작업을 지원하도록 설계되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.