QUICK REVIEW

[論文レビュー] Packrat Parsing: Simple, Powerful, Lazy, Linear Time

Bryan Ford|ArXiv.org|Mar 18, 2006

Natural Language Processing Techniques参考文献 19被引用数 84

ひとこと要約

この論文は、バックトラッキング再帰下り型パーサーのシンプルさと表現力と、メモ化による線形時間パーサーの効率性を組み合わせたパックレットパーサーを紹介する。中間のパース結果を保存し、各結果が一度しか計算されないことを保証することで、パックレットパーサーは、無制限の前方参照、複雑な不整合除去、およびレキカル解析と構文解析のシームレスな統合を可能にしながら、保証された線形時間性能を達成する。これは、Haskellのような現代の関数型プログラミング言語にとって理想的である。

ABSTRACT

Packrat parsing is a novel technique for implementing parsers in a lazy functional programming language. A packrat parser provides the power and flexibility of top-down parsing with backtracking and unlimited lookahead, but nevertheless guarantees linear parse time. Any language defined by an LL(k) or LR(k) grammar can be recognized by a packrat parser, in addition to many languages that conventional linear-time algorithms do not support. This additional power simplifies the handling of common syntactic idioms such as the widespread but troublesome longest-match rule, enables the use of sophisticated disambiguation strategies such as syntactic and semantic predicates, provides better grammar composition properties, and allows lexical analysis to be integrated seamlessly into parsing. Yet despite its power, packrat parsing shares the same simplicity and elegance as recursive descent parsing; in fact converting a backtracking recursive descent parser into a linear-time packrat parser often involves only a fairly straightforward structural change. This paper describes packrat parsing informally with emphasis on its use in practical applications, and explores its advantages and disadvantages with respect to the more conventional alternatives.

研究の動機と目的

従来のバックトラッキングパーサーの性能制限、特に柔軟性は保ちながらも指数時間の時間計算量を示す問題を解決すること。
再帰下り型パーサーの表現力を保ちながら、線形時間性能を保証する実用的で効率的なパーサーのソリューションを提供すること。
スキャナフェーズを別々に必要としない、レキカル解析と構文解析のシームレスな統合を可能にすること。
最長一致による不整合除去、構文的予測子、拡張可能な文法の合成といった高度なパーサー機能をサポートすること。
遅延評価を用いた関数型言語におけるメモ化が、歴史的に理論的であった線形時間パーサーアルゴリズムを実用的かつ効率的なものにできるかどうかを示すこと。

提案手法

コア技術は、すべての中間パース結果をメモ化し、各結果が最大でも一度しか計算されないことを保証することで、バックトラッキングパーサーにおける指数的爆発を防ぐこと。
関数型言語における非厳密（遅延）評価を用いて、計算を遅延させる再帰的データ構造としてパース結果を表現すること。
パース関数を再帰的に定義し、言語レベルの機能を介して自動的にメモ化することで、明示的なハッシュテーブルや検索構造を避けること。
パーサーは入力ストリーム全体を事前に処理し、入力全体へのランダムアクセスを仮定することで、完全な前方参照と一貫した線形時間動作を可能にすること。
拡張機能として、文法変換による左再帰のサポート、副作用を伴うモナディックパーサー、メイン文法へのレキカルルールの統合が含まれる。
アプローチはHaskellで実装されており、パーサーコンビネーターと高階関数を活用して、モジュラーで合成可能なパーサーを構築している。

実験結果

リサーチクエスチョン

RQ1バックトラッキングパーサーを、表現力や予測的前方参照を犠牲にせず、効率的にすることができるか？
RQ2遅延関数型言語におけるメモ化は、従来の再帰下り型パーサーの指数的時間計算量をどの程度まで解消できるか？
RQ3レキカル解析と構文解析を、単一で効率的かつ合成可能なパーサーフレームワークで統合できるか？
RQ4パックレットパーサーは、LR(k) や NSLR(1) といった従来の線形時間アルゴリズムと比べて、パワーと効率性でどのように差をつけることができるか？
RQ5パックレットパーサーは、特に拡張可能またはインタラクティブなシステムにおける言語設計にどのような実用的影響を与えるか？

主な発見

パックレットパーサーは、LL(k) や LR(k) 文法で定義されるあらゆる言語について、保証された線形時間パフォーマンスを達成する。また、無制限の前方参照を必要とする多くの非LR言語に対しても同様に有効である。
アルゴリズムは、最長一致、続く文字、続く文字ではないといった複雑な不整合除去戦略をサポートしており、これらは標準的な文脈自由文法では表現が難しい。
レキカル解析と構文解析を単一のパックレットパーサーでシームレスに統合でき、文字列の埋め込みや構造付きマークアップを伴うライテュアスプログラミングといった機能を可能にする。
LRパーサーよりも優れた文法の合成特性を達成しており、拡張可能またはドメイン特化言語に特に適している。
再帰の深さではなく入力サイズに比例する空間計算量であるものの、特に現代のコンパイラにおいては実用的に許容できるコストであることが多い。
遅延評価と高階関数が再帰的でメモ化されたパーサー構造を自然に表現できるため、関数型言語（Haskellなど）に特に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。