Skip to main content
QUICK REVIEW

[논문 리뷰] Query Expansion in Information Retrieval Systems using a Bayesian Network-Based Thesaurus

Luis M. de Campos, Juan Miguel Zarandona Fernández|arXiv (Cornell University)|2013. 01. 30.
Bayesian Modeling and Causal Inference참고 문헌 20인용 수 29
한 줄 요약

이 논문은 정보 검색에서 질의 확장을 위한 베이지안 네트워크 기반의 동의어 사전을 제안하며, 문서 컬렉션에서 어휘 관계를 학습하여 검색 효과성을 향상시킨다. 어휘 간 의미적 관계와 동시출현 관계를 모델링함으로써, 표준 테스트 컬렉션에서 정밀도와 재현율을 향상시켜 기준 방법에 비해 뚜렷한 성능 향상을 보였다.

ABSTRACT

Information Retrieval (IR) is concerned with the identification of documents in a collection that are relevant to a given information need, usually represented as a query containing terms or keywords, which are supposed to be a good description of what the user is looking for. IR systems may improve their effectiveness (i.e., increasing the number of relevant documents retrieved) by using a process of query expansion, which automatically adds new terms to the original query posed by an user. In this paper we develop a method of query expansion based on Bayesian networks. Using a learning algorithm, we construct a Bayesian network that represents some of the relationships among the terms appearing in a given document collection; this network is then used as a thesaurus (specific for that collection). We also report the results obtained by our method on three standard test collections.

연구 동기 및 목표

  • 사용자 질의를 의미적으로 관련된 어휘로 확장하여 정보 검색의 효과성을 향상시키기 위해.
  • 베이지안 네트워크를 사용하여 문서 컬렉션 기반의 고유한 동의어 사전을 개발하기 위해.
  • 외부 지식 자원에 대한 의존도를 줄이기 위해 문서 컬렉션 자체에서 학습하기 위해.
  • 표준 정보 검색 테스트 컬렉션에서 방법의 성능을 평가하기 위해.
  • 어휘 동시출현의 확률적 모델링이 정밀도와 재현율 향상에 기여함을 입증하기 위해.

제안 방법

  • 문서 컬렉션 내 어휘 동시출현 패턴을 기반으로, 구조 학습 알고리즘을 사용해 베이지안 네트워크를 학습한다.
  • 네트워크는 어휘 간 조건부 의존성을 인코딩하여 그들의 확률적 관계를 표현한다.
  • 질의 확장은 네트워크 구조를 기반으로 높은 확률을 가지는 어휘 확장어를 식별함으로써 수행된다.
  • 조건부 확률 분포를 사용하여 관련 확장어를 순위 매기고 선택한다.
  • 학습된 베이지안 네트워크는 질의 개선을 위한 동적이고 컬렉션 전용의 동의어 사전으로 기능한다.
  • 어휘 확장은 원래 질의 어휘를 바탕으로 네트워크가 유의미한 관련 어휘를 추론할 수 있는 능력에 의해 이끌린다.

실험 결과

연구 질문

  • RQ1베이지안 네트워크가 질의 확장에 활용하기 위해 문서 컬렉션 내 어휘 관계를 효과적으로 모델링할 수 있는가?
  • RQ2베이지안 네트워크 기반의 동의어 사전을 사용한 질의 확장의 성능은 기준 방법에 비해 어떻게 비교되는가?
  • RQ3이 방법은 표준 정보 검색 테스트 컬렉션에서 정밀도와 재현율을 어느 정도 향상시키는가?
  • RQ4네트워크 기반의 동의어 사전은 외부 고유어 자원에 대한 의존도를 줄일 수 있는가?
  • RQ5동시출현 패턴에서 어휘 관계를 학습하는 것이 검색 효과성에 어떤 영향을 미치는가?

주요 결과

  • 제안된 방법은 기준 질의 확장 기법에 비해 세 가지 표준 테스트 컬렉션에서 검색 성능을 뚜렷이 향상시켰다.
  • 베이지안 네트워크 기반의 동의어 사전은 단순한 동시출현을 넘어서 의미 있는 어휘 관계를 포착하여 더 높은 정밀도와 재현율을 달성했다.
  • 다양한 문서 컬렉션에서의 성능 우수성은 다양한 도메인에 적응 가능함을 시사한다.
  • 정적 또는 외부 동의어 사전보다 데이터에서 직접 유도된 학습된 컬렉션 전용 관계를 사용할 경우 성능이 뛰어났다.
  • 어휘 의존성의 확률적 모델링이 질의 확장의 질을 향상시킴을 확인했다.
  • 관계를 데이터에서 직접 유도함으로써 수동적 또는 외부 고유어 자원의 필요성을 줄였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.