Skip to main content
QUICK REVIEW

[논문 리뷰] Toward Network-based Keyword Extraction from Multitopic Web Documents

Sabina Šišović, Sanda Martinčić-Ipšić|arXiv (Cornell University)|2014. 07. 14.
Advanced Text Analysis Techniques인용 수 3
한 줄 요약

이 논문은 가중치가 부여되고 방향성이 있는 공출현 네트워크에서의 내/외부 선택도 측도를 사용하여, 다중 주제를 다루는 크로아티아어 웹 문서를 대상으로 비지도, 네트워크 기반의 키워드 추출 방법을 제안한다. 내/외부 선택도와 가중치를 병합하여 단어 쌍을 순위 매기고, 정지어 필터 및 고가중치 필터를 적용함으로써, 어형 어원화나 품사 태깅 없이도 의미적으로 풍부한 키워드를 효과적으로 식별한다. 이 방법은 정지어를 걸러내는 데서 표준 중심성 측도보다 뛰어난 성능을 보인다.

ABSTRACT

In this paper we analyse the selectivity measure calculated from the complex network in the task of the automatic keyword extraction. Texts, collected from different web sources (portals, forums), are represented as directed and weighted co-occurrence complex networks of words. Words are nodes and links are established between two nodes if they are directly co-occurring within the sentence. We test different centrality measures for ranking nodes - keyword candidates. The promising results are achieved using the selectivity measure. Then we propose an approach which enables extracting word pairs according to the values of the in/out selectivity and weight measures combined with filtering.

연구 동기 및 목표

  • 다양한 주제와 관련 없는 내용을 포함하는 노이즈가 많은 다중 주제 웹 문서에서의 키워드 추출 과제를 해결한다.
  • 특히 선택도를 포함한 네트워크 중심성 측도가 복잡하고 실제 웹 텍스트에서 의미 있는 키워드를 식별하는 데에 얼마나 유용한지 탐색한다.
  • 어형 어원화나 품사 태깅이 필요 없는 비지도, 도메인 독립적인 방법을 개발하여, 최소한의 전처리(정지어 목록만)로도 대규모 노이즈가 많은 데이터셋에 적합하게 한다.
  • 선택도가 빈도는 높지만 기능적으로 의미가 없는 단어(예: 정지어)와 의미적으로 풍부한 병렬어나 명사어구를 효과적으로 구분할 수 있는지 조사한다.

제안 방법

  • 문장 내에서 직접 공출현하는 것을 기반으로, 크로아티아어 웹 텍스트에서 가중치가 부여되고 방향성이 있는 공출현 네트워크를 구축한다. 여기서 단어는 노드이고, 간선은 문장 내에서의 직접적인 공출현을 나타낸다.
  • 내/외부 선택도 측도를 적용한다: $ e^{in/out}_i = \frac{s^{in/out}_i}{k^{in/out}_i} $, 여기서 $ s^{in/out}_i $ 는 노드 $ i $ 의 내/외부 강도이고, $ k^{in/out}_i $ 는 노드 $ i $ 의 내/외부 차수이다.
  • 내/외부 선택도와 간선 가중치의 병합된 값을 기반으로 단어 쌍을 순위 매겨 높은 잠재력의 키워드 후보를 식별한다.
  • 두 가지 필터를 적용한다: (1) 정지어 필터는 상위 순위의 튜플에서 기능어를 제거하고, (2) 고가중치 필터는 높은 공출현 빈도를 가진 간선만 유지한다.
  • 외부 지식으로 정지어 목록만 사용한다—어형 어원화나 품사 태깅이 필요하지 않다.
  • 네 가지 크로아티아어 웹 문서 컬렉션(예: 뉴스 포털, 입법 사이트 등)에서 결과를 평가하여 다양한 주제에 걸쳐서의 강건성을 점검한다.

실험 결과

연구 질문

  • RQ1선택도 측도는 다중 주제 웹 텍스트에서 빈도는 높지만 기능적으로 의미가 없는 단어(예: 정지어)와 의미적으로 풍부한 키워드를 효과적으로 구분할 수 있는가?
  • RQ2선택도 기반 순위 매기기와 전통적인 중심성 측도(차수, 밀도, 중심성) 간의 키워드 추출 성능를 비교했을 때 어떤가?
  • RQ3어형 어원화 등의 언어학적 전처리 없이도 네트워크 기반 접근이 노이즈가 많고 다중 주제를 다루는 크로아티아어 웹 문서에서 의미 있는 키워드를 얼마나 잘 추출할 수 있는가?
  • RQ4정지어 필터와 고가중치 필터와 같은 필터링 전략이 추출된 키워드 후보의 품질을 얼마나 향상시키는가?

주요 결과

  • 선택도 측도는 차수, 밀도, 중심성 중심성보다 키워드 추출에서 뛰어난 성능을 보였으며, 이러한 표준 측도들은 정지어를 상위 10개 키워드로 순위 매겼다.
  • 높은 내/외부 선택도 값은 의미적으로 풍부한 용어를 효과적으로 식별했으며, 예를 들어 입법 텍스트에서 핵심어구인 'narodne novine' (국립신문)과 'srpsku nacionalnu' (세르비아 국민)와 같은 용어를 식별했다.
  • 정지어 필터를 적용함으로써 상위 순위 튜플에서 기능어를 제거함으로써 키워드 후보의 품질이 크게 향상되었으며, 더 개방된 품사의 의미 있는 어휘가 더 많이 도출되었다.
  • 고가중치 필터는 'republika hrvatska' (크로아티아 공화국)와 'albansku nacionalnu' (アルバ니아 국민)와 같은 새로운 관련 키워드 후보를 도입했으며, 이는 필터링되지 않은 결과에서는 두드러지지 않았다.
  • 내/외부 선택도와 가중치 필터링의 조합은 'upravni spor' (행정 소송)와 'nadzorni odbor' (감독위원회)와 같은 더 일관되고 맥락적으로 관련된 키워드 튜플을 생성했다.
  • 어형 어원화나 품사 태깅 없이도 의미 있는 키워드를 성공적으로 추출했으며, 이는 대규모, 노이즈가 많고 다중 주제를 다루는 데이터셋에 대해 강건함을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.