Skip to main content
QUICK REVIEW

[논문 리뷰] SparTerm: Learning Term-based Sparse Representation for Fast Text Retrieval

Yang Bai, Xiaoguang Li|arXiv (Cornell University)|2020. 10. 02.
Topic Modeling참고 문헌 16인용 수 59
한 줄 요약

SparTerm은 중요도 예측기와 게이팅 컨트롤러를 결합하여 전체 어휘에서 희소하고 용어 기반의 표현을 직접 학습하고, 용어 가중치 부여와 확장을 가능하게 하여 MSMARCO에서 희소 검색 성능을 개선한다.

ABSTRACT

Term-based sparse representations dominate the first-stage text retrieval in industrial applications, due to its advantage in efficiency, interpretability, and exact term matching. In this paper, we study the problem of transferring the deep knowledge of the pre-trained language model (PLM) to Term-based Sparse representations, aiming to improve the representation capacity of bag-of-words(BoW) method for semantic-level matching, while still keeping its advantages. Specifically, we propose a novel framework SparTerm to directly learn sparse text representations in the full vocabulary space. The proposed SparTerm comprises an importance predictor to predict the importance for each term in the vocabulary, and a gating controller to control the term activation. These two modules cooperatively ensure the sparsity and flexibility of the final text representation, which unifies the term-weighting and expansion in the same framework. Evaluated on MSMARCO dataset, SparTerm significantly outperforms traditional sparse methods and achieves state of the art ranking performance among all the PLM-based sparse models.

연구 동기 및 목표

  • PLM의 심층 컨텍스트 지식을 통합하여 BoW 기반의 1단계 검색을 개선한다.
  • BoW를 희소 어휘 공간 표현으로 매핑하는 직접적이고 엔드투엔드 프레임워크를 개발한다.
  • 해석 가능성과 효율성을 유지하면서 의미 매칭을 향상시키기 위해 용어 가중치 부여와 확장의 균형을 맞춘다.

제안 방법

  • 전체 어휘에 대해 밀집한 용어 중요도 분포를 생성하는 중요도 예측기를 도입한다.
  • 어휘 용어에 대한 이진 희소 활성 마스크를 생성하는 게이팅 컨트롤러를 도입한다.
  • F(중요도)와 G(게이팅)를 결합하여 p' = F(p) ⊙ G(p)로 만들고, 희소성은 임계값 λ로 제어한다.
  • 문자 그대로의 용어 활성화와 확장 기반 활성화를 모두 가능하게 하여 어휘 간의 차이를 메운다.
  • 양성/음성 패시지 쌍(q, p+, p-)을 사용한 순위 학습 목적 함수로 엔드투엔드로 학습한다.
  • 확장 게이트를 L_exp와 함께 패시지-대상 텍스트 말뭉치를 사용하여 공동으로 학습하는 것을 선택적으로 허용한다.

실험 결과

연구 질문

  • RQ1PLM으로 학습된 직접적이고 희소하며 어휘 전면에 걸친 표현이 1단계 검색에서 전통적 희소 방법을 능가할 수 있는가?
  • RQ2중요도 예측기와 게이팅 컨트롤러가 희소 표현에서 용어 가중치 부여와 확장에 어떻게 기여하는가?
  • RQ3문자 그대로의 활성화만과 확장 기반 활성화가 검색 효과에 미치는 영향은 무엇인가?
  • RQ4SparTerm이 MSMARCO 패시지 검색 및 문서 순위 결정에서 DeepCT 및 Doc2Query-패밀리 방법과 어떻게 비교되는가?

주요 결과

  • 확장 강화 게이팅이 적용된 SparTerm은 MSMARCO 패시지 검색에서 희소 모델 중 MRR@10 측면에서 최첨단 순위를 달성한다.
  • 문자 그대로의 SparTerm은 MRR 및 Recall에서 DeepCT를 능가하여 더 강한 용어 가중치 부여 기능을 보인다.
  • 확장 가능 SparTerm은 상위 순위에서 Recall을 향상시켜 제어된 용어 확장의 이점을 보여준다.
  • Doc2Query-T5와 비교하여, 확장 강화된 SparTerm은 경쟁력 있는 MRR@10과 여러 임계값에서 더 높은 Recall을 달성한다.
  • PLM 기반 희소 방법(DeepCT, Doc2Query-T5, SparTerm)은 PLM 비의존 희소 방법보다 우수하여 맥락 지식의 희소 표현으로의 효과적인 전이을 시사한다.
  • 분석에 따르면 SparTerm은 의미적으로 관련된 용어(예: 동의어, 공동 출현)를 확장하고 더 매끄럽고 정보량이 풍부한 중요도 분포를 할당한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.