Skip to main content
QUICK REVIEW

[논문 리뷰] Name Searching and Information Retrieval

Paul Thompson, Christopher Dozier|ArXiv.org|1997. 06. 12.
Image Retrieval and Classification Techniques참고 문헌 2인용 수 48
한 줄 요약

이 논문은 뉴스 및 법적 문서와 같은 다양한 도메인에서 검색 성능을 향상시키기 위해 개인 이름을 다른 용어와 별도로 인식하고 인덱싱하는 방식을 제안한다. 정확한 이름 인식이 랭크된 검색 시스템에서 성능을 향상시킨다는 점을 입증한다. 이 연구는 이름 인식을 고려한 인덱싱이 검색 효율성에 상당한 기여를 한다고 보여준다.

ABSTRACT

The main application of name searching has been name matching in a database of names. This paper discusses a different application: improving information retrieval through name recognition. It investigates name recognition accuracy, and the effect on retrieval performance of indexing and searching personal names differently from non-name terms in the context of ranked retrieval. The main conclusions are: that name recognition in text can be effective; that names occur frequently enough in a variety of domains, including those of legal documents and news databases, to make recognition worthwhile; and that retrieval performance can be improved using name searching.

연구 동기 및 목표

  • 텍스트 내 개인 이름을 인식하는 것이 정보 검색 성능을 향상시킬 수 있는지 조사하는 것.
  • 뉴스 및 법적 텍스트와 같은 다양한 문서 도메인에서 이름 인식의 정확도를 평가하는 것.
  • 비이름 용어와 별도로 이름을 인덱싱하는 것이 검색 효율성 향상에 기여하는지 확인하는 것.
  • 실제 텍스트에서 이름의 빈도와 분포를 고려할 때 이름 인식의 실용적 가치를 평가하는 것.

제안 방법

  • 비정형 텍스트 문서에서 개인 이름을 식별하기 위해 명명된 실체 인식(NER) 기법을 사용한다.
  • 검색 시스템에서 이름은 다른 용어와 별도로 인덱싱되며, 별도의 인덱싱 및 가중 전략을 사용한다.
  • 기본 시스템과 이름 인식을 고려한 인덱싱이 적용된 시스템을 비교하여 표준 랭크된 검색 메트릭을 사용해 검색 성능을 평가한다.
  • 표준 평가 메트릭(예: 정밀도, 재현율, F1 점수)을 사용해 이름 인식 정확도를 평가한다.
  • 일상적인 코퍼스(뉴스 기사 및 법적 문서 포함)를 대상으로 실험하여 일반화 가능성 여부를 평가한다.
  • 시스템 성능를 통제된 비교를 통해 이름 인식이 검색 효율성에 미치는 영향을 분석한다.

실험 결과

연구 질문

  • RQ1뉴스 및 법적 문서와 같은 다양한 텍스트 도메인에서 개인 이름을 정확하게 인식할 수 있는가?
  • RQ2비이름 용어와 별도로 이름을 인덱싱하는 것이 랭크된 검색 시스템에서 검색 성능을 향상시키는가?
  • RQ3다양한 문서 유형에서 이름은 얼마나 자주 발생하는가? 이러한 빈도는 전용 이름 처리를 정당화할 만큼 충분한가?
  • RQ4이름 인식 정확도가 전체 검색 효율성에 미치는 영향은 무엇인가?
  • RQ5이름 인식을 고려한 인덱싱 전략이 정보 검색 과제에서 정밀도와 재현율을 얼마나 향상시키는가?

주요 결과

  • 텍스트 내 이름 인식은 정보 검색 시스템에서 실용적으로 유용할 정도로 충분한 정확도로 달성할 수 있다.
  • 뉴스 및 법적 문서와 같은 도메인에서 개인 이름이 충분히 자주 발생하여 전용 인식 및 인덱싱를 정당화할 수 있다.
  • 비이름 용어와 별도로 이름을 인덱싱하는 것은 검색 성능 향상에 명백한 기여를 한다.
  • 검색 파이프라인에 이름 인식 기능을 통합하면 랭크된 검색 과제에서 정밀도와 재현율이 모두 향상된다.
  • 이 연구는 이름 인식을 고려한 인덱싱 전략이 이름이 풍부한 도메인(예: 뉴스 및 법적 텍스트)에서 특히 효과적임을 확인한다.
  • 결과적으로 이름 인식은 실현 가능할 뿐 아니라 전체 검색 효율성 향상에 의미 있는 기여를 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.