QUICK REVIEW

[논문 리뷰] Using Information Content to Evaluate Semantic Similarity in a Taxonomy

Philip Resnik|ArXiv.org|1995. 11. 29.

Topic Modeling참고 문헌 18인용 수 2,149

한 줄 요약

이 논문은 정보 내용 기반의 의미적 유사도 측정을 is-a 분류체계에서 소개하고, 인간 판단과 비교 평가하며, 엣지 카운팅 및 다른 기준선과 비교한다. 엣지 카운팅에 비해 현저한 개선이 있지만 한계와 확장에 대해 논의한다.

ABSTRACT

This paper presents a new measure of semantic similarity in an IS-A taxonomy, based on the notion of information content. Experimental evaluation suggests that the measure performs encouragingly well (a correlation of r = 0.79 with a benchmark set of human similarity judgments, with an upper bound of r = 0.90 for human subjects performing the same task), and significantly better than the traditional edge counting approach (r = 0.66).

연구 동기 및 목표

단순한 엣지 카운팅을 넘어 계통분류에서 강력하고 맥락에 민감한 의미 유사도 측정 방법의 필요성을 제시한다.
계통분류에서 개념 확률을 이용한 정보 이론적 유사도 지표를 정의한다.
인간의 유사성 판단과 비교하여 이 지표를 평가하고, 기초 방법들과 벤치마크한다.

제안 방법

말뭉치 빈도에 따라 각 개념 c에 대해 확률 함수 p(c)를 부여하여 계통분류를 보강한다.
정보 내용을 -log p(c)로 정의하고, 두 개념(및 단어)의 공통 상위개념들 중 최대 정보 내용을 유사도로 정의한다.
단어의 경우, 모든 의미 쌍 w1 ∈ s(w1)와 w2 ∈ s(w2)에서 최대화하여 유사도를 계산한다.
엣지 기반 유사도와 p(c)-기반 유사도와 비교하고, 인간 판단과의 상관관계를 평가 지표로 사용한다.

실험 결과

연구 질문

RQ1is-a 계통분류에서 정보 내용 기반 의미 유사도 측정이 단어 유사성에 대한 인간 판단과 상관관계를 보일 수 있는가?
RQ2정보 내용 방법은 성능 측면에서 엣지 카운팅 및 다른 기준선들과 어떻게 비교되는가?
RQ3단일 의미의 최댓값 정보 요약의 한계는 무엇이며, 다중 의미 가중치 접근법이 이를 완화할 수 있는가?

주요 결과

정보 내용 유사도는 인간 판단과의 상관관계가 0.7911로 나타나며, 엣지 카운팅(0.6645) 및 p(c) 기반 유사도(0.6671)보다 더 우수하다.
엣지 카운팅은 정보 내용 방식에 비해 인간 판단과의 일치도가 현저히 낮다.
인간 대상 재실험에서 동일 작업 수행 시 상한 상관계수는 약 0.90에 이르는 것으로 나타났다.
지적된 한계는 부적절한 어의로 인해 잘못 높은 유사도가 발생하는 점으로, 다중 의미 가중 확장(Eq. 8)이 필요하다고 제안한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.