QUICK REVIEW

[논문 리뷰] An Efficient Probabilistic Context-Free Parsing Algorithm that Computes Prefix Probabilities

Andreas Stolcke|ArXiv.org|1994. 11. 28.

Natural Language Processing Techniques참고 문헌 35인용 수 288

한 줄 요약

이 논문은 단일 왼쪽에서 오른쪽 스캔을 통해 접두사 확률, 부분문장 생성 확률, 비터비 파싱, 기대 생성 횟수를 계산하는 효율적인 Earley 기반 확률적 문맥 자유 문법 파싱 알고리즘을 제안한다. 이 알고리즘은 문법 정규화가 필요 없이 희박한 문법을 효율적으로 처리할 수 있도록 Earley의 상향식 제어 구조를 확장하여, 증분적 확률 계산과 문법적으로 잘못된 입력에 대한 강건한 파싱을 가능하게 한다.

ABSTRACT

We describe an extension of Earley's parser for stochastic context-free grammars that computes the following quantities given a stochastic context-free grammar and an input string: a) probabilities of successive prefixes being generated by the grammar; b) probabilities of substrings being generated by the nonterminals, including the entire string being generated by the grammar; c) most likely (Viterbi) parse of the string; d) posterior expected number of applications of each grammar production, as required for reestimating rule probabilities. (a) and (b) are computed incrementally in a single left-to-right pass over the input. Our algorithm compares favorably to standard bottom-up parsing methods for SCFGs in that it works efficiently on sparse grammars by making use of Earley's top-down control structure. It can process any context-free rule format without conversion to some normal form, and combines computations for (a) through (d) in a single algorithm. Finally, the algorithm has simple extensions for processing partially bracketed inputs, and for finding partial parses and their likelihoods on ungrammatical inputs.

연구 동기 및 목표

좌측에서 우측으로 입력을 처리하는 동안 접두사 확률을 증분적으로 계산할 수 있는 파싱 알고리즘을 개발하는 것.
정규형으로의 변환을 요구하지 않고도 희박한 문법에서 효율적인 파싱을 지원하는 것.
단일 알고리즘 내에서 부분문장 확률, 비터비 파싱, 기대 생성 횟수 등의 다양한 확률적 파싱 측정치를 통합 계산하는 것.
간단한 확장으로 부분적으로 괄호가 달린 또는 문법적으로 잘못된 입력에 대한 강건한 파싱을 가능하게 하는 것.

제안 방법

전방 확률과 내부 확률을 사용한 정방향 추론을 통한 Earley의 파싱 프레임워크 확장.
입력을 왼쪽에서 오른쪽으로 스캔하면서 전방 확률을 증분적으로 계산.
예측 및 완료 단계를 사용하여 확률 전파를 통해 상태의 확률을 유지.
에프라인(공백) 생성을 포함한 재귀를 예측 및 완료 루프를 통해 처리.
외부 확률을 사용한 역방향 스캔을 통해 기대 생성 횟수를 계산.
부분 괄호화된 문장을 차트에 초기화하고 부분 파싱을 조립함으로써 강건한 파싱을 지원.

실험 결과

연구 질문

RQ1스토하스틱 문맥 자유 문법의 왼쪽에서 오른쪽 파싱 중에 접두사 확률을 어떻게 증분적으로 계산할 수 있는가?
RQ2상향식 Earley 스타일 알고리즘이 문법 정규화 없이도 희박한 문법을 효율적으로 처리할 수 있는가?
RQ3비터비 파싱과 기대 생성 횟수는 어떻게 동일한 파싱 프레임워크 내에서 계산할 수 있는가?
RQ4어떤 확장이 문법적으로 잘못되었거나 부분적으로 괄호가 달린 입력의 파싱을 가능하게 하는가?

주요 결과

알고리즘은 희박한 문법에 대해 최적의 복잡도를 유지하면서 단일 왼쪽에서 오른쪽 스캔을 통해 접두사 확률과 부분문장 생성 확률을 계산한다.
완전히 파rameterized된 문법에서는 하향식 방법과 유사한 성능을 보이며, 상향식 방법보다도 희박한 문법에서 뛰어난 성능을 발휘한다.
문법 변환을 요구하지 않으며 정확한 비터비 파싱과 기대 생성 횟수 계산을 지원한다.
확장 덕분에 부분적으로 괄호가 달린 입력의 파싱이 가능하며, 각 파싱의 가능성도 함께 식별할 수 있다.
문법을 정규형으로 변환할 필요가 없어 원래의 규칙 구조를 유지한다.
실험 결과에 따르면 알고리즘이 효율적이고 확장 가능하며, 입력 길이에 따라 선형으로 복잡도가 증가하고 문법 크기와는 부분적으로 복잡도가 하향하는 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.