[论文解读] Constructing Deterministic Parity Automata from Positive and Negative Examples
本文提出了首个针对确定性parity自动机(DPA)的多项式时间被动学习算法,该算法能够从正例和负例的最终周期性样本中,在极限下学习所有正则ω-语言。该方法基于右同余的语法族构造一个‘精确DPA’,在优先级和语言等价状态数有界的情况下,实现了多项式时间的数据复杂度。
We present a polynomial time algorithm that constructs a deterministic parity automaton (DPA) from a given set of positive and negative ultimately periodic example words. We show that this algorithm is complete for the class of $ω$-regular languages, that is, it can learn a DPA for each regular $ω$-language. For use in the algorithm, we give a definition of a DPA, that we call the precise DPA of a language, and show that it can be constructed from the syntactic family of right congruences for that language (introduced by Maler and Staiger in 1997). Depending on the structure of the language, the precise DPA can be of exponential size compared to a minimal DPA, but it can also be a minimal DPA. The upper bound that we obtain on the number of examples required for our algorithm to find a DPA for $L$ is therefore exponential in the size of a minimal DPA, in general. However we identify two parameters of regular $ω$-languages such that fixing these parameters makes the bound polynomial.
研究动机与目标
- 开发一种被动学习算法,从正例和负例的最终周期性样本中构造确定性parity自动机(DPA)。
- 确保该算法在极限下学习所有正则ω-语言,实现ω-正则语言类的完备性。
- 通过识别使样本大小相对于最小DPA大小呈多项式关系的结构性参数,最小化数据需求。
- 引入并形式化‘精确DPA’的概念,作为基于语法右同余族的规范DPA构造方式。
- 建立样本大小和算法复杂度的理论界,证明算法具有多项式时间复杂度,并且其数据依赖性由语言的结构性参数决定。
提出的方法
- 将语言的‘精确DPA’定义为:其优先级分配基于分析语言中词语的周期部分而得出。
- 利用Maler和Staiger(1997)提出的语法右同余族(FORC),通过幂等类确定优先级分配,构造精确DPA。
- 使用MMAL主动学习算法的修改版本(模拟教师响应)生成语言的特征样本。
- 通过动态扩展样本以加入反例和前缀查询,将MMAL的输出和等价性查询集成到被动学习流程中。
- 通过模拟教师基于目标语言一致回答查询的方式,确保正确性,保证算法在正确DPA处终止。
- 证明该算法运行时间为多项式时间,且生成的DPA与输入样本一致,样本大小受FORC大小与精确DPA大小的最大值所限制。
实验结果
研究问题
- RQ1是否存在一种被动学习算法,能够从正例和负例的最终周期性样本中,在多项式时间内为每个正则ω-语言构造出确定性parity自动机(DPA)?
- RQ2ω-语言的何种结构性特征可使被动DPA学习中的样本复杂度呈多项式?
- RQ3如何利用右同余的语法族(FORC)来定义一种规范的DPA构造方式——称为精确DPA——使其优先级分配反映语言的自然结构?
- RQ4在何种条件下,该算法的数据需求从指数级变为多项式级?
- RQ5精确DPA与其他规范表示形式(如good-for-games自动机或归一化Mealy机器)之间是否存在联系?
主要发现
- 所提出的算法DPAInf运行时间为多项式时间,且能从正例和负例的最终周期性样本中,在极限下学习每个正则ω-语言的DPA。
- 该算法从语法FORC构造精确DPA,该DPA是规范DPA,其优先级分配基于语言的周期结构。
- 所需示例数的上界在一般情况下为最小DPA大小的指数级,但当优先级数量和语言等价状态的最大数量固定时,变为多项式级。
- 对于IRC(DPA)类,其中每个∼L-类恰好对应一个DPA状态,该算法仅需多项式大小的样本。
- 对于d-IRC(k-DPA)类,其中每个∼L-类最多包含d个优先级在{0,…,k−1}范围内的状态,当d和k固定时,该算法实现了多项式数据复杂度。
- 精确DPA在如下意义上包含了归一化DPA类:一个DPA作为Mealy机器是归一化且最小的,当且仅当它是其自身语言和等价关系的精确DPA。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。