Skip to main content
QUICK REVIEW

[논문 리뷰] Memoization of Top Down Parsing

Mark Johnson|ArXiv.org|1995. 04. 25.
Natural Language Processing Techniques참고 문헌 10인용 수 44
한 줄 요약

이 논문은 상향식 파싱의 계속형 스타일(CPS) 기반 기능적 형식화를 제시하며, 집합을 반환하는 대신 문자열 위치를 점진적으로 나열하는 방식으로 왼쪽 재귀 문법에 대해 멈춤을 보장하는 메모이제이션을 가능하게 한다—이전에는 알려진 실패 지점이었다. 핵심 기여는 차트 파싱 동작을 모방하는 새로운 메모이제이션 기법으로, 왼쪽 재귀가 있더라도 정지 보장과 다항 시간 복잡도를 보장한다.

ABSTRACT

This paper discusses the relationship between memoized top-down recognizers and chart parsers. It presents a version of memoization suitable for continuation-passing style programs. When applied to a simple formalization of a top-down recognizer it yields a terminating parser.

연구 동기 및 목표

  • 왼쪽 재귀 문법에서 메모이제이션된 상향식 파서의 비정지 문제를 해결하기 위해.
  • 입력 위치 기반의 점진적 결과 나열을 지원하는 기능적, 계속형 스타일로 상향식 파싱을 형식화하기 위해.
  • 이 CPS 프레임워크에서의 메모이제이션이 차트 파싱과 동일한 동작을 보이는 것을 입증하기 위해.
  • 왼쪽 재귀 문법을 포함한 문맥 자유 문법에 대해 효율적이고 정지 보장되는 파서를 구축하기 위해.
  • 이를 바탕으로 전체 파싱 트리 구축 및 의미 값 전파로의 확장을 위한 기반을 마련하기 위해.

제안 방법

  • 파싱을 집합을 반환하는 대신 문자열 위치 결과의 스트림으로 표현하기 위해 계속형 스타일(CPS)을 사용한다.
  • 입력 위치와 카테고리별로 결과를 캐시하는 메모이제이션 메커니즘을 도입하여 중복 계산을 방지한다.
  • 메모이제이션 테이블을 기반으로 한 구조를 사용하며, 'entry' 셀이 계속형과 결과를 저장하고, 효율성을 위해 할당을 사용한다.
  • 종단자 및 비종단자 함수로부터 구성적으로 문법을 만드는 데 사용되는 고계 함수 조합자인 'seq', 'alt', 'opt', 'k*'를 정의한다.
  • 메모이제이션을 CPS 변환된 파싱 함수에 적용하여, 각 함수가 입력 쌍(카테고리, 위치)에 대해 최대 한 번만 호출되도록 보장한다.
  • 스키마에서 성능 향상을 위해 메모이제이션 테이블을 효율적으로 업데이트하기 위해破壊적 할당(set-car!, set-cdr!)을 사용한다.

실험 결과

연구 질문

  • RQ1기능적 프로그래밍 기법을 사용해, 왼쪽 재귀 문법에서 메모이제이션된 상향식 파서가 정지하도록 만들 수 있는가?
  • RQ2계속형 스타일은 상향식 파싱에서 더 효율적이고 정지 가능한 메모이제이션 형태를 어떻게 가능하게 하는가?
  • RQ3CPS 기반 메모이제이션은 예측 및 완료 단계 측면에서 차트 파서의 행동을 어느 정도 모방하는가?
  • RQ4동일한 메모이제이션 기법을 전체 파싱 트리나 의미 값 생성으로 확장할 수 있는가, 정지 성질을 잃지 않고서도?
  • RQ5순수 기능적, 메모이제이션된 상향식 프레임워크에서 차트 유사의 효율성과 완전성을 달성할 수 있는가?

주요 결과

  • CPS 기반 메모이제이션 파서는 이전에 표준 메모이제이션 상향식 파서에서 비정지 문제를 일으킨 바 있는 (35)번의 NP 규칙과 같은 왼쪽 재귀 문법에서도 정지한다.
  • 메모이제이션 메커니즘이 각 파싱 함수가 입력 위치와 카테고리별로 최대 한 번만 호출되도록 보장하여 무한 재귀를 방지한다.
  • 파서의 동작은 예측 차트 파서와 유사하며, 메모이제이션 테이블 항목이 예측된 엣지와 완료된 엣지에 해당한다.
  • 이 방법은 왼쪽 재귀가 있더라도, 문맥 자유 문법에 대해 다항 시간 내에 효율적인 인식이 가능하다.
  • 정수 기반 위치와 벡터 기반 메모이제이션을 통해 최적화가 가능한 스킴에서 효율적이고 작동 가능한 인식기의 구축이 가능하다.
  • 추가 계속형 인수를 추가함으로써 이 프레임워크는 파싱 트리 구축 및 의미 값 전파로 확장될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.