Skip to main content
QUICK REVIEW

[论文解读] A two-step sequential approach for hyperparameter selection in finite context models

José Contente, Ana Martins|arXiv (Cornell University)|Mar 20, 2026
Algorithms and Data Compression被引用 0
一句话总结

提出一个两步顺序方法来为有限上下文模型(FCMs)选择超参数 k 和 α:使用 pami 识别 k,然后在给定 k 的情况下通过最大化 Dirichlet–多项式边际似然估计 α,以 empirical Bayes 方式实现,压缩性能与格点搜索相当但成本大幅降低。

ABSTRACT

Finite-context models (FCMs) are widely used for compressing symbolic sequences such as DNA, where predictive performance depends critically on the context length k and smoothing parameter α. In practice, these hyperparameters are typically selected through exhaustive search, which is computationally expensive and scales poorly with model complexity. This paper proposes a statistically grounded two-step sequential approach for efficient hyperparameter selection in FCMs. The key idea is to decompose the joint optimization problem into two independent stages. First, the context length k is estimated using categorical serial dependence measures, including Cramér's ν, Cohen's \k{appa} and partial mutual information (pami). Second, the smoothing parameter α is estimated via maximum likelihood conditional on the selected context length k. Simulation experiments were conducted on synthetic symbolic sequences generated by FCMs across multiple (k, α) configurations, considering a four-letter alphabet and different sample sizes. Results show that the dependence measures are substantially more sensitive to variations in k than in α, supporting the sequential estimation strategy. As expected, the accuracy of the hyperparameter estimation improves with increasing sample size. Furthermore, the proposed method achieves compression performance comparable to exhaustive grid search in terms of average bitrate (bits per symbol), while substantially reducing computational cost. Overall, the results on simulated data show that the proposed sequential approach is a practical and computationally efficient alternative to exhaustive hyperparameter tuning in FCMs.

研究动机与目标

  • 动机:在用于 DNA 等符号序列的有限上下文模型(FCMs)中,需要更高效的超参数选择方式。
  • 开发一种两步方法,使上下文长度 k 与平滑参数 α 解耦,降低优化复杂度。
  • 提供一个基于统计学的估计 k 与 α 的方法,结合经验贝叶斯和信息理论度量。

提出的方法

  • 使用 pami(部分自相关互信息)作为滞后特征,指示最强的序列依赖性来估计 k*。
  • 假设在上下文之间条件独立,最大化在 k* 的上下文下的 Dirichlet–多项式边际似然(经验贝叶斯)来估计 α*|k*。
  • 将 FCM 中的 Lidstone 平滑表示为 P(y_{t+1}=s|c^t)=(n_s^t+α)/(∑_a n_a^t+|A|α),并将 α 解释为 Dirichlet 先验参数。
  • 计算 pami(h)=E[log(P(Y_t,Y_{t+h}|F_t)/(P(Y_t|F_t)P(Y_{t+h}|F_t)))],并将 k* 选择为 pami 的最大滞后。
  • 可选地与其他特征如 Cramér’s ν 和 Cohen’s κ 进行比较,尽管对于更大的 k 它们并不有效。
$(k,\alpha)=(3,0)$
$(k,\alpha)=(3,0)$

实验结果

研究问题

  • RQ1两步顺序过程是否可以可靠地从符号序列中识别出最优上下文长度 k*?
  • RQ2在给定选定的 k* 的条件下,α* 是否可以通过最大化 Dirichlet–多项边际似然来准确估计?
  • RQ3所提的顺序方法在压缩性能(每符号比特数)和计算成本方面与穷举网格搜索相比有何差异?
  • RQ4样本大小对 k* 的识别和 α* 的估计有何影响?
  • RQ5替代的分类时序特征(如 ν、κ)是否能够提供类似的选择 k* 的好处?

主要发现

  • pami 在真实滞后处显示出明确的峰值,并在识别 k* 时优于 ν 和 κ;在模拟中 T=100,000 时大约有 70% 的正确 k*。
  • α*|k* 的估计随着样本量增大而改进;且在 k* 被正确识别时更准确;若错误识别 k*,会降低 α* 的估计准确性。
  • 两步方法的压缩比特率(bps*)接近网格搜索的比特率(bps(gs)),且显著的优点是只需进行一次压缩,而网格搜索需要多次。
  • 若正确识别了 k*,bps* 与数据生成的比特率无显著差异;错误识别 k* 往往会恶化压缩,尽管 α* 可在一定程度上补偿。
  • 总体而言,上下文长度 k 是压缩效率的主导超参数,顺序方法提供了显著的计算节省。
$(k,\alpha)=(8,0)$
$(k,\alpha)=(8,0)$

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。