Skip to main content
QUICK REVIEW

[논문 리뷰] A Robust Parsing Algorithm For Link Grammars

Dennis Grinberg, John Lafferty|ArXiv.org|1995. 08. 02.
Natural Language Processing Techniques인용 수 86
한 줄 요약

이 논문은 원래의 동적 프rogramming 접근 방식에 null 링크를 추가하여 문법적으로 잘못되었거나 손상된 문장을 처리할 수 있도록 확장한 강건한 링크 문법 파서 알고리즘을 제시한다. 세 번의 동적 프로그래밍 단계를 통해 null 링크 수를 최소화함으로써, 노이즈가 많은 대화체 영어에서 문법적 구조를 효율적으로 추출한다. 이 알고리즘은 삼차 시간 복잡도를 가지며, 높은 수준의 문법적 오류가 존재하는 경우에도 Switchboard 코퍼스의 상당 부분을 성공적으로 분석한다.

ABSTRACT

In this paper we present a robust parsing algorithm based on the link grammar formalism for parsing natural languages. Our algorithm is a natural extension of the original dynamic programming recognition algorithm which recursively counts the number of linkages between two words in the input sentence. The modified algorithm uses the notion of a null link in order to allow a connection between any pair of adjacent words, regardless of their dictionary definitions. The algorithm proceeds by making three dynamic programming passes. In the first pass, the input is parsed using the original algorithm which enforces the constraints on links to ensure grammaticality. In the second pass, the total cost of each substring of words is computed, where cost is determined by the number of null links necessary to parse the substring. The final pass counts the total number of parses with minimal cost. All of the original pruning techniques have natural counterparts in the robust algorithm. When used together with memoization, these techniques enable the algorithm to run efficiently with cubic worst-case complexity. We have implemented these ideas and tested them by parsing the Switchboard corpus of conversational English. This corpus is comprised of approximately three million words of text, corresponding to more than 150 hours of transcribed speech collected from telephone conversations restricted to 70 different topics. Although only a small fraction of the sentences in this corpus are "grammatical" by standard criteria, the robust link grammar parser is able to extract relevant structure for a large portion of the sentences. We present the results of our experiments using this system, including the analyses of selected and random sentences from the corpus.

연구 동기 및 목표

  • 표준 문법 구조를 수정하지 않고도 문법적으로 잘못되었거나 노이즈가 많은 입력을 처리할 수 있는 효율적이고 강건한 파서 알고리즘을 개발하는 것.
  • 전화 통화 기록과 같은 실제 대화 데이터를 처리할 수 있도록 하는 것—이러한 데이터에서는 표준 기준에 따라 문장의 소수만이 문법적으로 올바르게 구성되어 있다.
  • 기존 링크 문법 체계의 효율성과 프루닝 기법을 유지하면서 부분적이고 근사적인 파싱을 지원하도록 확장하는 것.
  • 기존 형식 체계와 알고리즘에 최소한의 수정만으로도 순수 문법적 접근을 통해 강건한 파싱이 가능한지를 입증하는 것.

제안 방법

  • 사전 정의된 어휘 기준에 관계없이 인접한 단어 간 연결을 허용하는 null 링크를 도입함으로써 원래 링크 문법의 동적 프로그래밍 알고리즘을 확장한다.
  • 세 번의 동적 프로그래밍 단계를 수행한다: (1) 문법적 제약 조건을 강제하는 표준 파싱, (2) 모든 부분문장에 대해 최소 비용(Null 링크 수)을 계산, (3) 최소 비용을 가진 파싱 수를 세기.
  • 메모이제이션과 프루닝 기법을 사용하여 n개의 단어를 가진 입력에 대해 삼차 시간 복잡도 O(n³)를 유지한다.
  • 알 수 없는 단어에 대해 기본 디시닛 세트를 사용하며, 문맥을 기반으로 품사와 문법적 역할을 추론한다.
  • 각 파싱에 비용을 비음수로 할당하며, 완전히 문법적으로 올바른 파싱은 비용이 0이며, 주로 최소 비용 파싱을 출력으로 삼는다.
  • 부분 파싱을 지원하기 위해 null 링크를 사용하여 누락되거나 잘못된 단어를 보완함으로써, 문법적으로 잘못된 입력에서도 구조 분석이 가능하도록 한다.

실험 결과

연구 질문

  • RQ1순수 문법적 접근 방식이 문법적으로 잘못되었거나 노이즈가 많은 대화체 텍스트에서 의미 있는 구조를 효과적으로 추출할 수 있는가?
  • RQ2기존 링크 문법 파서의 효율성과 프루닝 메커니즘은 강건한 파싱 확장에서도 유지될 수 있는가?
  • RQ3null 링크와 비용 최소화 기법을 통해 얼마나 정확하게 높은 오류율을 가진 실제 구두 언어를 파싱할 수 있는가?
  • RQ4기존 형식 체계에 null 링크만 추가하는 최소한의 수정으로도 의미론적 또는 도메인 전용 지식 없이도 강건성을 달성할 수 있는가?

주요 결과

  • 강건한 링크 문법 파서는 표준 기준에 따라 문법적으로 올바른 문장 비율이 매우 낮은 Switchboard 코퍼스의 문장 중 상당 부분에서 문법적 구조를 성공적으로 추출했다.
  • 메모이제이션과 프루닝을 결합한 결과, 알고리즘이 삼차 시간 복잡도 O(n³)를 달성하여 긴 문장의 효율적 파싱이 가능했다.
  • 실험 결과, 랜덤으로 선택한 코퍼스의 10개 문장에 대해 파싱이 성공했으며, 이는 알 수 없는 단어와 문법적으로 잘못된 구성이 포함된 경우에도 최소한의 null 링크로 처리되었다.
  • 시스템은 'toronto'와 'kmarkt'와 같은 알 수 없는 단어를 문맥에 따라 형용사로 정확히 해석하여 기본 디시닛 메커니즘의 효과성을 입증했다.
  • 시스템은 누락된 단어(예: 'would to be an emergency'에서 'have')를 추론하지 못했으며, 잘못된 시작을 모델링할 수 없어 문법적 빈도의 처리에 한계가 있음을 보였다.
  • 한계가 있음에도 불구하고, 이 파서는 http://www.cs.cmu.edu/afs/cs/project/link/www/robust.html 에서 월드 와이드 웹 상에서 공개 실험을 위해 배포되어 실용적 유용성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.