QUICK REVIEW

[논문 리뷰] A Proposal for Word Sense Disambiguation using Conceptual Distance

Eneko Agirre, Germán Rigau|ArXiv.org|1995. 10. 04.

Natural Language Processing Techniques참고 문헌 9인용 수 62

한 줄 요약

이 논문은 WordNet의 의미 계층 구조를 기반으로 한 개념적 거리 개념을 사용하여, 훈련 또는 수동 태깅 없이도 완전히 자동으로 의미 해석을 수행하는 방법을 제안한다. 이는 문맥 창 내의 명사 의미 간 의미 유사도를 측정하는 개념적 밀도(conceptual density)를 계산하여 다의어 명사를 해석한다. SemCor에서 25단어 문맥 창을 사용할 경우, 정밀도 47.3%와 커버리지 83.2%를 달성한다.

ABSTRACT

This paper presents a method for the resolution of lexical ambiguity and its automatic evaluation over the Brown Corpus. The method relies on the use of the wide-coverage noun taxonomy of WordNet and the notion of conceptual distance among concepts, captured by a Conceptual Density formula developed for this purpose. This fully automatic method requires no hand coding of lexical entries, hand tagging of text nor any kind of training process. The results of the experiment have been automatically evaluated against SemCor, the sense-tagged version of the Brown Corpus.

연구 동기 및 목표

훈련, 수동 태깅, 수동으로 작성된 규칙 없이도 완전히 자동으로 작동하는 의미 해석 시스템을 개발하는 것.
실제로 제한 없이 사용 가능한 텍스트에서 SemCor 코퍼스(브라운 코퍼스의 의미 태깅 버전)를 사용하여 방법을 평가하는 것.
의미 모호성을 해결하는 데 있어 개념적 거리가 의미 유사도 측정 기준으로서의 효과성을 평가하는 것.
개념적 밀도 방법의 성능을 '가장 흔한 의미'나 무작위 추측과 같은 기준 히ュ리스틱과 비교하는 것.

제안 방법

단어 의미를 시냅셋(synsets)으로 표현하기 위해 넓은 범위의 의미 분류 체계로 WordNet 1.4를 사용한다.
개념적 밀도를 공식으로 정의하여, WordNet의 계층적 구조에서의 최단 경로 거리 기반으로 명사 의미 집합 간의 의미 유사도를 측정한다.
연속된 명사들의 슬라이딩 윈도우를 적용하여, 윈도우 내의 가능한 모든 의미 조합에 대해 총 개념적 밀도를 계산한다.
총 개념적 밀도를 최대화하는 의미 조합을 선택하여 해석 결과로 삼는다.
정밀도와 커버리지의 상충 관계를 고려하여 25단어의 문맥 창 크기를 최적 크기로 선정한다.
SemCor의 기준 의미 태그와 예측된 의미 태그를 비교하여 결과를 자동으로 평가한다.

실험 결과

연구 질문

RQ1WordNet의 계층을 통해 측정한 개념적 거리가 제한 없이 사용 가능한 텍스트에서 의미를 안정적으로 해석하는 데 신뢰할 수 있는가?
RQ2개념적 밀도 방법의 성능은 '가장 흔한 의미'나 무작위 추측과 같은 기준 히ュ리스틱과 비교해 볼 때 어떻게 되는가?
RQ3정밀도와 커버리지를 극대화하기 위해 최적의 문맥 창 크기는 무엇인가?
RQ4이 방법은 훈련이나 수동 간섭 없이도 대규모 실세계 코퍼스인 SemCor에서 합리적인 성능을 달성하는가?

주요 결과

25단어 문맥 창을 사용할 경우, 다의어 명사에 대해 SemCor에서 정밀도 47.3%와 커버리지 83.2%를 달성하였다.
정밀도는 창 크기가 15일 때 최고로 올라가며, 25단어를 초과해도 감소하기 시작함으로써 더 큰 문맥에서도 수익 감소 현상이 나타남을 보여주었다.
다의어 명사의 커버리지는 80%를 초과했으며, 약 20단어의 창 크기에서 최대가 되었다.
단의어 명사까지 포함시켰을 경우 총 정밀도는 66.4%로 상승하고 커버리지는 88.6%로 증가하였다.
비록 정밀도는 비슷했지만, '가장 흔한 의미' 히ュ리스틱보다 커버리지에서 약 10% 높은 성능을 기록하였다.
무작위 추측 기준은 30%의 정밀도를 기록하여, 본 방법의 성능가 랜덤 추측 수준을 훨씬 초월함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.