Skip to main content
QUICK REVIEW

[논문 리뷰] The Google Similarity Distance

Rudi Cilibrasi, Paul Vitányi|ArXiv.org|2004. 12. 21.
Computability, Logic, AI Algorithms참고 문헌 23인용 수 27
한 줄 요약

이 논문은 Google의 페이지 히트 수를 문맥적 공현 빈도의 대체 지표로 사용하여 단어와 어구 간 의미 유사도를 측정하는 파rameter-free 방법인 Google Similarity Distance(GSD)를 소개한다. 콜모고로프 복잡도와 정규화된 정보 거리 원리를 활용함으로써 GSD는 군집, 분류, 번역 작업에서 높은 정확도를 달성하였으며, 무작위화된 SVM 기반 분류 테스트에서 WordNet 카테고리와 평균 87%의 일치도를 보였다.

ABSTRACT

Words and phrases acquire meaning from the way they are used in society, from their relative semantics to other words and phrases. For computers the equivalent of `society' is `database,' and the equivalent of `use' is `way to search the database.' We present a new theory of similarity between words and phrases based on information distance and Kolmogorov complexity. To fix thoughts we use the world-wide-web as database, and Google as search engine. The method is also applicable to other search engines and databases. This theory is then applied to construct a method to automatically extract similarity, the Google similarity distance, of words and phrases from the world-wide-web using Google page counts. The world-wide-web is the largest database on earth, and the context information entered by millions of independent users averages out to provide automatic semantics of useful quality. We give applications in hierarchical clustering, classification, and language translation. We give examples to distinguish between colors and numbers, cluster names of paintings by 17th century Dutch masters and names of books by English novelists, the ability to understand emergencies, and primes, and we demonstrate the ability to do a simple automatic English-Spanish translation. Finally, we use the WordNet database as an objective baseline against which to judge the performance of our method. We conduct a massive randomized trial in binary classification using support vector machines to learn categories based on our Google distance, resulting in an a mean agreement of 87% with the expert crafted WordNet categories.

연구 동기 및 목표

  • 수작업으로 구성된 지식 기반 자료에 의존하지 않고도 단어와 어구 간 의미 유사도를 측정하기 위한 보편적이고 파rameter-free인 방법 개발
  • 특히 Google의 페이지 수 추정치를 통해 월드 와이드 웹에 암묵적으로 담긴 집단적 의미를 활용
  • 대규모이고 낮은 품질의 웹 콘텐츠에서 상대적 의미를 자동으로 탐색할 수 있는 확장 가능한 방법 창출
  • 군집, 분류, 자동 번역과 같은 응용 분야에서 이 방법의 효과성 입증
  • 전체 웹 환경에서 자원 소모가 크기 때문에 실행이 어려운 의미 모델(예: WordNet, LSA)에 대한 계산적으로 실현 가능한 대안 제공

제안 방법

  • 개별 검색어와 그 조합에 대한 Google의 페이지 히트 수를 사용하여 정규화된 Google 거리(NGD)를 추정함. 이는 정규화된 정보 거리(NID)의 변종이다.
  • 코모고로프 복잡도와 정보 거리 이론적 프레임워크를 적용하여 웹 검색 결과에서의 공현 빈도를 통해 의미 유사도를 근사함.
  • Google Similarity Distance(GSD)는 NGD 공식에서 유도되며, 페이지 수의 로그 변환을 사용하여 단어 쌍 간의 정규화되고 대칭적인 이질성 측정값을 계산함.
  • 웹 페이지의 직접 분석을 피하기 위해 총합 페이지 수에만 의존함으로써 대규모 의미 탐색에 대해 확장 가능하고 실용적인 방법이 됨.
  • 지식 기반의 WordNet 카테고리에 기반한 전문가 레이블과 비교하여 GSD 기반 예측을 검증하기 위해 대규모의 랜덤화된 이진 분류 실험(서포트 벡터 머신 기반)을 수행함.
  • 전체 웹에 적용할 경우 행렬 연산이 불가능한 LSA와는 달리, 질의 기반 샘플링을 통해 계산 비용을 절감함.

실험 결과

연구 질문

  • RQ1수작업 레이블 없이도 집합적 웹 검색 통계 자료에서 단어와 어구 간 의미 유사도를 신뢰성 있게 유추할 수 있는가?
  • RQ2Google Similarity Distance는 WordNet과 같은 기존의 의미 데이터베이스에 비해 정확도가 얼마나 뛰어나게 되는가?
  • RQ3이 방법은 계층적 군집, 분류, 언어 번역과 같은 작업에 효과적으로 활용될 수 있는가?
  • RQ4전체 웹 환경에서 LSA와 같은 행렬 기반 방법에 비해 Google 기반 접근 방식은 확장 가능하고 실현 가능한가?
  • RQ5검색 엔진 질의를 통해 실세계 웹 데이터에 적용된 파rameter-free이고 압축 기반의 유사도 메트릭의 성능은 어떠한가?

주요 결과

  • 대규모의 랜덤화된 이진 분류 실험에서 서포트 벡터 머신을 사용한 결과, Google Similarity Distance는 전문가가 수작업으로 구성한 WordNet 카테고리와 평균 87%의 일치도를 달성함.
  • 이 방법은 색상과 숫자와 같은 의미적으로 구분되는 카테고리를 정확히 구분하였으며, 17세기 네덜란드 화가들의 그림 이름과 영국 소설가들의 책 이름을 올바르게 군집화함.
  • 비상 상황 관련 용어의 의미적 맥락을 이해하고, 공현 패턴을 기반으로 소수와 같은 수학적 개념을 식별할 수 있음을 입증함.
  • 웹 기반의 유사도 메트릭을 사용하여 의미적으로 유사한 단어 쌍을 식별함으로써 단순한 자동 영어-스페인어 번역을 가능하게 함.
  • 빈도 벡터의 유클리드 거리와 같은 대안적 접근 방식은 계산 비용이 너무 높고 성능이 열악하여 완전히 실용적이지 못하다는 점이 밝혀짐.
  • LSA와 달리 이 방법은 계산적으로 실현 가능하고 확장 가능하며, 전체 웹에 적용할 경우 필요한 행렬의 크기로 인해 계산이 불가능해지는 문제를 피함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.