Skip to main content
QUICK REVIEW

[논문 리뷰] Corpus-Driven Knowledge Acquisition for Discourse Analysis

Stephen Soderland, Wendy G. Lehnert|ArXiv.org|1994. 06. 07.
Natural Language Processing Techniques참고 문헌 10인용 수 26
한 줄 요약

이 논문은 MUC-4 마이크로일렉트로닉스 테스트 세트에서 F-측정값 최대 37.5%를 기록하며 정보 추출을 지원하기 위해 대표적인 텍스트 코퍼스에서 논의 수준의 지식을 자동으로 습득하는 기계학습 시스템 Wrap-Up을 제시한다. 수작업로 작성된 답변 키를 기반으로 훈련된 결합 트리(decision trees)를 사용하여, 수작업으로 작성된 히ュ리스틱을 대체함으로써 개발 시간을 수개월에서 며칠로 단축시킨다.

ABSTRACT

The availability of large on-line text corpora provides a natural and promising bridge between the worlds of natural language processing (NLP) and machine learning (ML). In recent years, the NLP community has been aggressively investigating statistical techniques to drive part-of-speech taggers, but application-specific text corpora can be used to drive knowledge acquisition at much higher levels as well. In this paper we will show how ML techniques can be used to support knowledge acquisition for information extraction systems. It is often very difficult to specify an explicit domain model for many information extraction applications, and it is always labor intensive to implement hand-coded heuristics for each new domain. We have discovered that it is nevertheless possible to use ML algorithms in order to capture knowledge that is only implicitly present in a representative text corpus. Our work addresses issues traditionally associated with discourse analysis and intersentential inference generation, and demonstrates the utility of ML algorithms at this higher level of language analysis. The benefits of our work address the portability and scalability of information extraction (IE) technologies. When hand-coded heuristics are used to manage discourse analysis in an information extraction system, months of programming effort are easily needed to port a successful IE system to a new domain. We will show how ML algorithms can reduce this

연구 동기 및 목표

  • 정보 추출 시스템에서 수작업으로 작성된 논의 모듈의 높은 개발 비용과 낮은 이식성 문제를 해결하기 위해.
  • 기계학습이 대표적인 텍스트 코퍼스에서 암묵적인 도메인 지식을 추출하여 논의 수준의 처리를 가능하게 할 수 있음을 보여주기 위해.
  • 노트리프한, 응용 분야에 특화된 히ュ리스틱을 대체하여 도메인 간 일반화가 가능한 스케일러블한 코퍼스 기반 모델을 도입하기 위해.
  • 훈련 데이터에서 논의 관계를 학습하여 정보 추출의 재현율과 정밀도를 향상시키기 위해.
  • NLP나 기계학습 전문 지식이 없는 도메인 전문가가 시스템을 훈련시키기 위해 답변 키를 작성할 수 있도록 하기 위해.

제안 방법

  • Wrap-Up은 추출된 엔티티를 통합, 연결, 분할, 폐기하는 등의 논의 수준의 결정을 모델링하기 위해 ID3 결합 트리를 사용한다.
  • 각 결합 트리는 문장 수준의 추출물에서 유도된 언어학적 및 위치적 특징으로 인코딩된 인스턴스를 기반으로 훈련된다.
  • 특징으로는 언어 패턴(예: 'X에서 이용 가능')에 대한 이진 지표, 키워드(예: '딥-유레어바이올릿'), 트리거 수, 상대적 개체 간 거리 등이 포함된다.
  • 훈련 과정에서 수작업으로 작성된 답변 키를 골드 표준 레이블로 사용하여 엔티티 쌍(예: 리소그래피 공정 및 장비)이 연결되었는지 여부를 분류한다.
  • 여러 개의 결합 트리를 순차적으로 적용한다: 하나는 기업명을 필터링하기 위한 것이고, 다른 하나는 공정을 장비에 연결하기 위한 것이다.
  • 모델은 MUC-4 마이크로일렉트로닉스 도메인의 700개 훈련 텍스트에서 훈련되었으며, 각 엔티티 쌍은 답변 키에 주석 처리되어 있다.

실험 결과

연구 질문

  • RQ1수작업으로 작성된 히ュ리스틱 없이 기계학습 알고리즘이 대표적인 텍스트 코퍼스에서 암묵적인 논의 수준의 지식을 효과적으로 추출할 수 있는가?
  • RQ2코퍼스 기반 접근 방식이 새로운 정보 추출 도메인의 개발 시간을 수개월에서 며칠로 단축시킬 수 있는가?
  • RQ3기계학습 기반의 논의 처리가 재현율과 정밀도 측면에서 수작업으로 작성된 시스템과 비슷하거나 뛰어나게 성능을 내는가?
  • RQ4해당 지침이 명시되어 있지 않은 상태에서 답변 키로부터 도메인 지식을 얼마나 잘 포괄할 수 있는가?
  • RQ5노이즈에 강건한 기계학습 모델이 문장 수준의 추출 결과에 오류가 있더라도 성능을 유지할 수 있는가?

주요 결과

  • Wrap-Up은 자동 코퍼스 분 析를 통해 논의 처리의 개발 시간을 수개월에서 단 며칠로 단축시켰다.
  • MUC-4 마이크로일렉트로닉스 테스트 세트에서 Wrap-Up은 최고 성능을 보인 테스트 파artition에서 F-측정값 37.5%를 기록했으며, 재현율 34.7%, 정밀도 40.5%를 달성했다.
  • 엔티티 이름 필터 트리는 기업명의 정밀도를 기준선의 33%에서 40.2%로 향상시켰으며, 재현율 34.4%를 유지했다.
  • 시스템은 필터링 과정에서 잃어버린 재현율을 복구하기 위해 새로운 연결을 추론(예: 장비에서 리소그래피 공정을 유추)하고, 과다 연결된 공정을 분할함으로써 성능을 향상시켰다.
  • 문장 수준의 추출 결과에 의존하고 있음에도 불구하고, Wrap-Up은 거짓 양성(false positives)을 줄이고 참 양성(true positives)을 복구함으로써 전체 시스템 성능을 향상시켰다.
  • 이 접근 방식은 NLP나 기계학습 전문 지식이 없는 도메인 전문가가 답변 키를 기여할 수 있도록 하여, 시스템 맞춤화의 진입 장벽을 크게 낮춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.