Skip to main content
QUICK REVIEW

[논문 리뷰] Natural Language Processing for Information Extraction

Sonit Singh|arXiv (Cornell University)|2018. 07. 06.
Topic Modeling참고 문헌 55인용 수 48
한 줄 요약

논문은 NLP에서 정보추출(IE)을 조사하며 NER, NEL, CR, 시간/이벤트 추출, RE 등의 작업과 최첨단 방법, 도구, KB 추론 접근법을 상세히 설명한다.

ABSTRACT

With rise of digital age, there is an explosion of information in the form of news, articles, social media, and so on. Much of this data lies in unstructured form and manually managing and effectively making use of it is tedious, boring and labor intensive. This explosion of information and need for more sophisticated and efficient information handling tools gives rise to Information Extraction(IE) and Information Retrieval(IR) technology. Information Extraction systems takes natural language text as input and produces structured information specified by certain criteria, that is relevant to a particular application. Various sub-tasks of IE such as Named Entity Recognition, Coreference Resolution, Named Entity Linking, Relation Extraction, Knowledge Base reasoning forms the building blocks of various high end Natural Language Processing (NLP) tasks such as Machine Translation, Question-Answering System, Natural Language Understanding, Text Summarization and Digital Assistants like Siri, Cortana and Google Now. This paper introduces Information Extraction technology, its various sub-tasks, highlights state-of-the-art research in various IE subtasks, current challenges and future research directions.

연구 동기 및 목표

  • 정보추출과 그것이 비정형 텍스트 처리에서 하는 역할을 소개한다.
  • IE의 하위 작업들(NER, NEL, CR, 시계열/이벤트 추출, RE, KB 추론)와 그 의존성을 검토한다.
  • 패턴 기반, 게이지터 기반, ML 기반, 심층 학습 방법 등 IE 작업 전반의 최첨단 방법을 논의한다.
  • IE 도구, 공유 과제, 지식베이스 구성 및 추론을 가능하게 하는 기술로 강조한다.

제안 방법

  • 정보추출 파이프라인과 필수 전처리 단계(토큰화, 형태소분석/어간추출, 품사 태깅, 구문분석)를 설명한다.
  • IE 접근법을 패턴 매칭, 게재터 기반, 기계학습 기반으로 분류하고, CRF, SVM, MaxEnt, 원거리 감독(distant supervision)을 포함한다.
  • IE 하위 작업(NER, NEL, CR, 시간/이벤트 추출, RE)에 대한 최첨단 방법을 제시하고 공동 모델링 경향을 논의한다.
  • 공개/상용/전문화된 IE 도구의 목록과 실제 현장 배치에서의 역할을 열거한다.
  • Freebase, DBpedia, YAGO, Google Knowledge Graph와 같은 KB에서의 응용으로서 지식베이스 구성, 추론, 링크 예측을 설명한다.

실험 결과

연구 질문

  • RQ1주요 IE 하위 작업은 무엇이며 이들이 NLP 파이프라인에서 어떻게 서로 연관되어 있는가?
  • RQ2각 IE 하위 작업(NER, NEL, CR, Temporal, RE)에 대한 현재의 최첨단 방법과 성능 추세는 무엇인가?
  • RQ3원거리 감독(distant supervision)과 다중 인스턴스 학습(MIL)이 관계 추출의 라벨링 데이터 문제를 어떻게 완화하는가?
  • RQ4IE 출력과 지식베이스 및 추론을 활용해 QA, 검색 등의 다운스트림 작업에서 어떻게 통합·강화할 수 있는가?
  • RQ5도메인과 언어 전반에서 IE의 발전을 이끈 도구와 공유 과제는 무엇인가?

주요 결과

  • IE는 NER, NEL, CR, 시계열 정보 추출, RE 및 KB 추론을 포함한 여러 개의 상호 연관된 하위 작업으로 구성된다.
  • 머신러닝과 딥러닝 방법이 많은 IE 하위 작업에서 지배적으로 자리잡았으며, 종종 전통적인 규칙 기반 또는 패턴 기반 시스템을 능가한다.
  • 원거리 감독과 다중 인스턴스 학습은 RE의 라벨 데이터 부족 문제를 해결하지만 잡음을 도입하고 세심한 모델링이 필요하다(예: MIML-RE).
  • 공개, 상용, 전문 도구를 포함한 광범위한 IE 도구 생태계가 실용적 배치와 평가를 가능하게 한다.
  • 하위 작업 간의 공동 모델링(예: CR-NER-NEL) 및 교차 도메인/개방 다국어 접근 방식이 IE 성능 향상에 가능성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.