Skip to main content
QUICK REVIEW

[论文解读] Discrete World Models via Regularization

Davide Bizzaro, Luciano Serafini|arXiv (Cornell University)|Mar 2, 2026
AI-based Problem Solving and Planning被引用 0
一句话总结

DWMR 在不进行像素重建的情况下学习无监督的布尔世界模型,使用正则化来最大化比特熵与独立性,同时偏好稀疏的局部转移;在离散、组合环境中优于基于重建的基线方法。

ABSTRACT

World models aim to capture the states and dynamics of an environment in a compact latent space. Moreover, using Boolean state representations is particularly useful for search heuristics and symbolic reasoning and planning. Existing approaches keep latents informative via decoder-based reconstruction, or instead via contrastive or reward signals. In this work, we introduce Discrete World Models via Regularization (DWMR): a reconstruction-free and contrastive-free method for unsupervised Boolean world-model learning. In particular, we introduce a novel world-modeling loss that couples latent prediction with specialized regularizers. Such regularizers maximize the entropy and independence of the representation bits through variance, correlation, and coskewness penalties, while simultaneously enforcing a locality prior for sparse action changes. To enable effective optimization, we also introduce a novel training scheme improving robustness to discrete roll-outs. Experiments on two benchmarks with underlying combinatorial structure show that DWMR learns more accurate representations and transitions than reconstruction-based alternatives. Finally, DWMR can also be paired with an auxiliary reconstruction decoder, and this combination yields additional gains.

研究动机与目标

  • 为面向规划与符号推理的世界模型学习紧凑布尔潜在表示而提供动机。
  • 提出一种面向布尔潜在表示的无重建训练目标。
  • 证明精心设计的正则化能防止潜在崩溃并鼓励信息丰富、解耦的比特码。
  • 证明 DWMR 在组合基准上无需像素重建即可实现更优的状态表示和转移。

提出的方法

  • 通过基于 sigmoid 的编码器将观测编码为布尔潜在向量,产生比特概率。
  • 使用预测网络在给定当前潜在状态与一个行动的条件下预测下一个潜在状态。
  • 优化联合损失,将预测准确性与方差、相关性、偏度的共同正则化以及变化的局部性正则性结合。
  • 使用 EMA 目标编码器稳定训练,并采用两步更新方案,将离散输入训练与联合的、连续更新分离。
  • 可选地用重建解码器扩展 DWMR,以获得额外的性能收益。
Figure 1: Overview of the model architecture and of the loss function. Encoders map successive observations into a shared Boolean latent space, and a predictor transforms the current latent state into the next, given the action. We illustrate and evaluate this setup on an 8-puzzle benchmark with MNI
Figure 1: Overview of the model architecture and of the loss function. Encoders map successive observations into a shared Boolean latent space, and a predictor transforms the current latent state into the next, given the action. We illustrate and evaluate this setup on an 8-puzzle benchmark with MNI

实验结果

研究问题

  • RQ1是否可以通过针对布尔潜在空间的正则化在不进行像素级重建的情况下获得信息丰富且不塌缩的表示?
  • RQ2是否仅靠强制比特层面的熵、独立性和局部性先验就足以建模离散世界动力学?
  • RQ3在组合环境中,DWMR 相对于基于重建的基线在编码与想象-rollout 性能方面有何比较?
  • RQ4在布尔潜在空间结构良好之后,增加一个辅助解码器是否会进一步提升性能?

主要发现

  • DWMR 在不进行像素重建的情况下实现了强大且稳定的编码与想象式 rollout 性能。
  • 依赖重建的基线方法(AE、β-VAE、DeepCubeAI)的表现不及 DWMR。
  • 在 DWMR 上扩展一个辅助解码器(DWMR+AE)可带来进一步提升,表明在良好正则化潜在空间之上,重建仍然有帮助。
  • 消融研究表明方差、相关性、偏度、局部性以及 EMA 对性能与鲁棒性具有关键作用。
Figure 2: Example transition in IceSlider.
Figure 2: Example transition in IceSlider.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。