Skip to main content
QUICK REVIEW

[논문 리뷰] Automatic Generation of Benchmarks for Entity Recognition and Linking.

Axel-Cyrille Ngonga Ngomo, Michael Röder|arXiv (Cornell University)|2017. 10. 24.
Topic Modeling참고 문헌 46인용 수 2
한 줄 요약

이 논문은 수동 주석 처리가 비용이 많이 들기 때문에, 링크된 데이터를 사용하여 명명된 엔티티 인식 및 연결(NER&EL)을 위한 고품질, 대규모 벤치마크를 자동으로 생성하는 방법을 제안한다. 이 방법은 기존 수동으로 생성된 벤치마크와 유사한 골드 표준 품질의 벤치마크를 생성하여, NER&EL 도구의 확장성 있고 비용 효율적인 평가를 가능하게 한다. 11개의 도구를 자동으로 생성된 벤치마크와 수동으로 생성된 벤치마크 간에 비교한 결과, 이는 성능이 유사함을 보여주었다.

ABSTRACT

The velocity dimension of Big Data plays an increasingly important role in processing unstructured data. Heretofore, no large-scale benchmarks were available to evaluate the performance of named entity recognition and entity linking solutions. This unavailability was due to the creation of gold standards for named entity recognition and entity linking being a time-intensive, costly and error-prone task. We hence investigate the automatic generation of benchmark texts with entity annotations for named entity recognition and linking from Linked Data. The main advantage of automatically constructed benchmarks is that they can be readily generated at any time, and are cost-effective while being guaranteed to achieve gold-standard quality. We compare the performance of 11 tools on the benchmarks we generate with their performance on 16 benchmarks that were created manually. Our results suggest that our automatic benchmark generation approach can create varied benchmarks that have characteristics similar to those of existing benchmarks. In addition, we perform a large-scale runtime evaluation of entity recognition and linking solutions for the first time in literature. Our experimental results are available at this http URL

연구 동기 및 목표

  • 명명된 엔티티 인식 및 연결(NER&EL) 시스템을 평가하기 위한 대규모, 고품질의 벤치마크 부족 문제를 해결한다.
  • 수동으로 벤치마크를 생성하는 데에는 시간이 오래 걸리고 비용이 많이 들며 오류가 발생하기 쉬운 점을 극복한다.
  • 링크된 데이터를 사용하여 정확한 엔티티 주석이 포함된 자동으로 생성된 벤치마크 텍스트를 개발한다.
  • 자동으로 생성된 벤치마크가 수동으로 생성된 벤치마크와 유사한 특성을 유지하도록 보장한다.
  • 이번 연구에서 문헌상 최초로 대규모 런타임 평가를 위한 NER&EL 솔루션의 확장 가능한 평가를 가능하게 한다.

제안 방법

  • 공개된 링크된 데이터 소스를 활용하여 구조화된 엔티티 정보와 문맥 텍스트를 추출한다.
  • 링크된 데이터에서 엔티티 언급어와 그 문맥 설명을 통합하여 자연어 텍스트를 자동으로 생성한다.
  • 골드 표준 정밀도로 생성된 텍스트 내의 명명된 엔티티를 주석 처리하기 위한 기법을 적용한다.
  • 링크된 데이터 소스에 존재하는 다양한 도메인과 엔티티 유형에서 샘플링하여 벤치마크의 다양성을 확보한다.
  • 수동으로 생성된 벤치마크와의 성능 비교를 통해 생성된 벤치마크의 품질을 검증한다.
  • 통계적 및 정성적 분석을 통해 자동으로 생성된 벤치마크와 수동으로 생성된 벤치마크 간의 유사성을 평가한다.

실험 결과

연구 질문

  • RQ1자동으로 생성된 NER 및 엔티티 연결을 위한 벤치마크가 수동으로 생성된 벤치마크와 유사한 골드 표준 품질을 달성할 수 있는가?
  • RQ2자동으로 생성된 벤치마크와 수동으로 생성된 벤치마크에서 NER&EL 도구의 성능 특성은 어떻게 비교되는가?
  • RQ3자동으로 생성된 벤치마크가 실제 비정형 텍스트의 다양성과 복잡성을 어느 정도 반영하는가?
  • RQ4자동 벤치마크 생성 방법이 NER&EL 도구의 대규모, 재현 가능한 평가를 지원할 수 있는가?
  • RQ5대규모 자동으로 생성된 벤치마크에서 NER&EL 솔루션의 확장성과 런타임 성능은 어떠한가?

주요 결과

  • 자동 벤치마크 생성 방법은 NER 및 엔티티 연결 도구 평가에 적합한 고품질의 골드 표준 주석이 부여된 텍스트를 성공적으로 생성한다.
  • 11개의 NER&EL 도구가 자동으로 생성된 벤치마크에서의 성능이 수동으로 생성된 벤치마크에서의 성능과 유사하게 나타나, 두 벤치마크의 특성이 유사함을 시사한다.
  • 생성된 벤치마크는 엔티티 유형, 도메인, 언어적 패턴 측면에서 충분한 다양성을 보이며, 강력한 평가를 가능하게 한다.
  • 본 연구는 자동 벤치마크 생성 과정의 확장성 덕분에 문헌상 최초로 대규모 런타임 평가를 수행한 NER&EL 솔루션에 대한 연구이다.
  • 제공된 URL에서 이용 가능한 실험 결과는 자동으로 생성된 벤치마크가 신뢰할 수 있고 재현 가능한 벤치마크에 적합하다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.