Skip to main content
QUICK REVIEW

[논문 리뷰] An improved semantic similarity measure for document clustering based on topic maps

Muhammad Rafi, M. Shahid Shaikh|arXiv (Cornell University)|2013. 03. 17.
Advanced Text Analysis Techniques참고 문헌 11인용 수 23
한 줄 요약

이 논문은 주제 맵를 사용하여 문서 군집화를 위한 새로운 의미적 유사도 측정 방법을 제안한다. 문서를 키워드 매칭을 넘어서는 의미 관계를 포착할 수 있는 구조화된 지식 그래프로 표현함으로써, 주제 맵 내 공통된 부분 트리 패턴의 상관관계를 계산하여 유사도를 산정한다. 이 방법은 텍스트 마이닝 데이터셋에서 기존의 벡터 기반 및 WordNet 기반 접근 방식보다 뛰어난 성능을 보이며, 군집화 효과성을 향상시킨다.

ABSTRACT

A major computational burden, while performing document clustering, is the calculation of similarity measure between a pair of documents. Similarity measure is a function that assigns a real number between 0 and 1 to a pair of documents, depending upon the degree of similarity between them. A value of zero means that the documents are completely dissimilar whereas a value of one indicates that the documents are practically identical. Traditionally, vector-based models have been used for computing the document similarity. The vector-based models represent several features present in documents. These approaches to similarity measures, in general, cannot account for the semantics of the document. Documents written in human languages contain contexts and the words used to describe these contexts are generally semantically related. Motivated by this fact, many researchers have proposed seman-tic-based similarity measures by utilizing text annotation through external thesauruses like WordNet (a lexical database). In this paper, we define a semantic similarity measure based on documents represented in topic maps. Topic maps are rapidly becoming an industrial standard for knowledge representation with a focus for later search and extraction. The documents are transformed into a topic map based coded knowledge and the similarity between a pair of documents is represented as a correlation between the common patterns (sub-trees). The experimental studies on the text mining datasets reveal that this new similarity measure is more effective as compared to commonly used similarity measures in text clustering.

연구 동기 및 목표

  • 문서의 의미적 의미를 포착하는 데에 벡터 기반 유사도 측정 방법의 한계를 해결하기 위해.
  • 주제 맵를 통한 구조화된 지식 표현을 활용하여 문서 군집화 효과성을 향상시키기 위해.
  • 어휘 매칭을 넘어서 맥락적이고 관계적인 의미를 포착할 수 있는 의미적 유사도 측정 방법을 개발하기 위해.
  • 기존의 유사도 측정 방법들과 비교하여 표준 텍스트 마이닝 데이터셋에서 제안된 방법의 성능을 평가하기 위해.

제안 방법

  • 문서가 주제 맵로 변환되어 실체, 개념 및 그들의 관계가 구조화된 지식 그래프로 표현된다.
  • 의미적 유사도는 두 문서의 주제 맵 간에 공통된 부분 트리 패턴을 식별하고 상관관계를 분석하여 계산된다.
  • 이 방법은 주제 맵의 부분 트리 간의 구조적 정렬을 사용하여 의미적 상관관계를 정량화하며, 공통된 개념적 구조에 중점을 둔다.
  • 유사도 점수는 문서 쌍 간의 부분 트리 패턴에서의 겹침 정도와 구조적 일관성의 수준에서 유도된다.
  • 이 접근 방식은 WordNet과 같은 외부 어휘 데이터베이스에 의존하지 않으며, 대신 문서의 내재된 구조를 활용하여 의미적 추론을 수행한다.

실험 결과

연구 질문

  • RQ1벡터 공간 모델과 비교하여 주제 맵 기반 표현이 문서 군집화에서 의미적 유사도 측정을 향상시킬 수 있는가?
  • RQ2주제 맵 부분 트리의 구조적 유사도는 인간이 애너테이션한 문서 유사도와 어떻게 관련이 있는가?
  • RQ3제안된 방법이 군집화 정확도에서 WordNet 기반 및 전통적인 벡터 기반 유사도 측정 방법을 초월하는가?
  • RQ4이 방법은 문서 쌍 간의 의미적 맥락과 관계 정보를 어느 정도 유지하는가?

주요 결과

  • 제안된 주제 맵 기반 유사도 측정 방법은 벤치마크 텍스트 마이닝 데이터셋에서 기존의 전통적 벡터 공간 모델보다 높은 군집화 정확도를 달성했다.
  • 이 방법은 특히 맥락적이고 관계적인 의미를 포착하는 데서 WordNet 기반 의미 유사도 측정 방법보다 뛰어난 성능을 보였다.
  • 주제 맵 내 공통된 부분 트리 패턴의 상관관계는 동일한 어휘적 내용이 없는 문서들 사이에서도 의미적 유사도를 효과적으로 반영한다.
  • 실험 결과는 이 방법이 의미 유사도 계산의 계산 부담을 줄이면서도 군집화 품질을 향상시킨다는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.