Skip to main content
QUICK REVIEW

[논문 리뷰] Multiple Retrieval Models and Regression Models for Prior Art Search

Patrice Lopez, Laurent Romary|ArXiv.org|2009. 08. 30.
Rough Sets and Fuzzy Logic참고 문헌 12인용 수 23
한 줄 요약

이 논문은 영어, 프랑스어, 독일어에서 다중 검색 모델(KL, 옥파키)과 어간, 어구, 개념 인덱싱을 결합한 다국어 특허 기초기술 검색 시스템인 PATATRAS를 제시한다. 결과 융합에 회귀 기반 기법을 사용하고, 메타데이터 및 인용 구조를 활용하여 순위를 향상시켜 CLEF 2009 IP 트랙에서 다국어 과제에서 MAP 0.2802의 최신 기술 성능을 달성한다.

ABSTRACT

This paper presents the system called PATATRAS (PATent and Article Tracking, Retrieval and AnalysiS) realized for the IP track of CLEF 2009. Our approach presents three main characteristics: 1. The usage of multiple retrieval models (KL, Okapi) and term index definitions (lemma, phrase, concept) for the three languages considered in the present track (English, French, German) producing ten different sets of ranked results. 2. The merging of the different results based on multiple regression models using an additional validation set created from the patent collection. 3. The exploitation of patent metadata and of the citation structures for creating restricted initial working sets of patents and for producing a final re-ranking regression model. As we exploit specific metadata of the patent documents and the citation relations only at the creation of initial working sets and during the final post ranking step, our architecture remains generic and easy to extend.

연구 동기 및 목표

  • 특허를 포함한 다국어 기술 및 과학 문헌에서 기초기술 검색을 위한 확장 가능하고 일반적인 프레임워크를 개발한다.
  • 영어, 프랑스어, 독일어에서 다수의 검색 모델과 인덱싱 전략을 융합하여 검색 성능을 향상시킨다.
  • 특허 메타데이터 및 인용 구조를 사용하여 초기 작업 세트를 생성하고 최종 재순서를 수행함으로써 시스템의 일반성에 손상을 주지 않으면서 순위를 향상시킨다.
  • 특허 컬렉션에서 유도된 검증 세트를 기반으로 기계학습 기반 결과 융합의 효과를 평가한다.
  • 정보 검색에서 노이즈가 많고 모호하며 다국어 특허 언어의 과제를 해결한다.

제안 방법

  • KL 및 옥파키 모델을 사용하여 어간, 어구, 개념 인덱싱을 적용한 3개 언어에서 10개의 별도 검색 구성 설정을 활용했다.
  • 수작업으로 정제한 약 4,000건의 특허로 구성된 검증 세트를 기반으로 훈련된 다중 회귀 모델을 사용하여 다수의 모델 결과를 융합했다.
  • 각 주제에 대해 제한된 초기 작업 세트를 생성하기 위해 특허 메타데이터(예: IPC/ECLA 분류) 및 인용 구조를 사용했다.
  • 최종 재순서 모델로 회귀 기반 모델을 적용하여 인용 기반 특징과 메타데이터를 통합하여 상위 결과를 정밀하게 조정했다.
  • 위키백과 XML 파일에서 어휘 기반 데이터베이스를 구축한 후, 토큰화, 품사 태깅, 어구 추출 및 통제된 개념 인덱싱을 수행했다.
  • 64비트 매크로스를 사용한 4대의 머신 환경에서 190만 건의 특허 컬렉션을 처리하였으며, 훈련 및 집계 파이프라인을 오프라인 처리에 최적화했다.

실험 결과

연구 질문

  • RQ1다양한 검색 모델과 인덱싱 전략을 융합하면 다국어 특허 컬렉션에서 기초기술 검색 성능을 향상시킬 수 있는가?
  • RQ2특허 코퍼스에서 유도된 검증 세트를 기반으로 훈련된 회귀 기반 결과 융합은 얼마나 효과적인가?
  • RQ3초기 작업 세트 선택 및 최종 재순서에 특허 메타데이터 및 인용 구조를 사용할 경우 검색 성능은 어느 정도 향상되는가?
  • RQ4어간, 어구, 개념 인덱싱을 포함한 다국어 어휘 인덱싱 통합이 단일 언어 접근보다 성능을 향상시키는가?
  • RQ5최소한의 재구성으로 특허 외 기술 문헌까지도 지원할 수 있는 일반 아키텍처를 설계할 수 있는가?

주요 결과

  • 다국어 시스템은 MAP 0.2802를 달성하여 모든 언어별 별도 실행 결과를 뛰어넘었으며, 이는 교차 언어 융합의 효과를 입증한다.
  • 영어 전용 검색은 개별 성능가장 높았으며(MAP 0.2358), 특허 기술 기술서에서 영어의 지배적 위치를 반영한다.
  • 세 언어를 융합한 결과가 전체적으로 가장 우수한 성능을 기록하여 다국어 인덱싱의 가치를 확인한다.
  • 회귀 기반 결과 융합은 다양한 검색 신호를 효과적으로 통합하고 노이즈를 감소시켜 검색 성능을 향상시켰다.
  • 초기 작업 세트 생성 및 최종 재순서에 인용 구조와 메타데이터를 활용한 결과 상위 순위의 정밀도가 향상되었다.
  • 시스템은 주제당 약 43초의 총 처리 시간을 기록했지만, 이는 온라인 사용을 위해 최적화되지 않았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.