Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring automatic word sense disambiguation with decision lists and the Web

Eneko Agirre, David Martínez|ArXiv.org|2000. 10. 17.
Natural Language Processing Techniques참고 문헌 18인용 수 92
한 줄 요약

이 논문은 SemCor 및 DSO 코퍼스에 기반한 결정 목록을 사용하여 단어의 의미 해석을 평가하며, 추가로 웹에서 유도된 학습 데이터를 활용한다. 연구 결과, 수작업 태깅된 코퍼스에서 다의어성이 높은 단어에 대해 결정 목록이 약 0.7의 정밀도를 달성하는 것으로 나타났지만, 자동으로 확보한 웹 데이터는 성능 향상에 기여하지 못했고, 코퍼스 간 학습은 효과적이지 않아, 수작업으로 정제된 데이터를 초월해 감독형 WSD를 확장하는 데에는 한계가 있음을 시사한다.

ABSTRACT

The most effective paradigm for word sense disambiguation, supervised learning, seems to be stuck because of the knowledge acquisition bottleneck. In this paper we take an in-depth study of the performance of decision lists on two publicly available corpora and an additional corpus automatically acquired from the Web, using the fine-grained highly polysemous senses in WordNet. Decision lists are shown a versatile state-of-the-art technique. The experiments reveal, among other facts, that SemCor can be an acceptable (0.7 precision for polysemous words) starting point for an all-words system. The results on the DSO corpus show that for some highly polysemous words 0.7 precision seems to be the current state-of-the-art limit. On the other hand, independently constructed hand-tagged corpora are not mutually useful, and a corpus automatically acquired from the Web is shown to fail.

연구 동기 및 목표

  • 수작업으로 태깅된 데이터를 초월해 결정 목록을 사용한 감독형 단어의 의미 해석의 확장성을 평가하기 위해.
  • SemCor 및 DSO와 같은 수작업 태깅 코퍼스가 고정밀도 WSD 시스템을 지원할 수 있는지 평가하기 위해.
  • 지식 확보의 한계를 극복하기 위해 웹에서 자동으로 학습 데이터를 확보할 수 있는지 가능성 탐색하기 위해.
  • 코퍼스 간 학습의 한계와 결정 목록이 노이즈와 데이터 양에 대해 얼마나 강인한지 평가하기 위해.

제안 방법

  • 로그우도비율로 가중치를 부여한 특징을 사용하여 수작업 태깅된 코퍼스(SemCor 및 DSO)에서 학습된 결정 목록을 사용하여 의미 해석 후보를 순위 매김한다.
  • 지역적 어울림, 품사 태그, 어간, WordNet의 의미 분야 등을 포함한 특징 세트를 활용하여 의미 식별을 향상시킨다.
  • Mihalcea & Moldovan(1999)의 방법에 기반한 웹 데이터 확보 파이프라인을 구현하며, WordNet의 동의어와 설명을 활용해 검색 쿼리를 생성하고 후보 예제를 추출한다.
  • 교차 코퍼스 태깅, 정밀도/공분산 분석, 학습 곡선을 통해 데이터의 충분성과 노이즈에 대한 내성 능력을 평가하기 위해 성능을 평가한다.
  • WordNet에서 유도된 더 흐린 의미 구분을 사용하여, 더 낮은 세분화 수준의 레이블링에서의 성능 향상을 평가한다.

실험 결과

연구 질문

  • RQ1기존의 수작업 태깅 코퍼스인 SemCor 및 DSO를 사용하여 결정 목록이 미세한 WordNet 의미에 대해 고정밀도를 달성할 수 있는가?
  • RQ2한 수작업 태깅 코퍼스에서 확보한 학습 데이터가 다른 코퍼스로 이식 가능한가? 그 정도는 어느 정도인가?
  • RQ3자동으로 확보한 웹 데이터가 수작업 태깅 코퍼스의 대안으로서 결정 목록 기반 WSD 시스템 학습에 유용한가?
  • RQ4미세한 WordNet 의미를 사용하여 수작업 태깅 데이터로 학습된 결정 목록 기반 WSD의 성능 상한선은 무엇인가?

주요 결과

  • DSO 코퍼스에서 다의어성이 높은 단어에 대해 결정 목록은 0.70의 정밀도를 달성하여, 이러한 시스템의 현재 최고 수준의 성능 한계일 수 있음을 시사한다.
  • SemCor는 일반 텍스트에서 기본적인 의미 해석을 위해 충분한 데이터를 제공하며, 일반 텍스트에서 0.68의 정밀도를 달성하지만, 단어와 품사에 따라 성능의 변동성이 크다.
  • SemCor와 DSO 간의 코퍼스 간 학습은 실망스러운 결과를 보였으며, 서로 다른 수작업 태깅 코퍼스는 의미 태깅의 불일치로 인해 상호 보완적이지 않음을 시사한다.
  • 자동으로 확보한 웹 데이터는 성능 향상에 기여하지 못했으며, 결과적으로 거의 쓸모없는 수준의 품질을 보였는데, 이는 노이즈와 추출된 예제의 낮은 신뢰성 때문일 것이다.
  • WordNet에서 유도된 더 흐린 의미 구분은 결정 목록이 80%의 정밀도에 도달할 수 있도록 해주어, 의미의 세분화 수준을 낮추면 강인성과 성능이 향상됨을 시사한다.
  • DSO에 대한 학습 곡선은 수작업 태깅 데이터와 미세한 WordNet 의미를 기반으로 학습된 시스템이 성능 상한선에 도달했음을 시사하며, 더 많은 데이터로도 성능 향상의 효과가 점점 줄어들고 있음을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.