[论文解读] Semantic Sections: An Atlas-Native Feature Ontology for Obstructed Representation Spaces
这篇论文将语义分区作为 Atlas 原生的局部到全局对象来建模阻塞表示空间中的特征,证明循环一致性决定全局化,并展示一个跨冻结 LLM Atlas 的实用发现与认证管线,显示在树本地一致性之外存在可全球化和扭曲的分区。
Recent interpretability work often treats a feature as a single global direction, dictionary atom, or latent coordinate shared across contexts. We argue that this ontology can fail in obstructed representation spaces, where locally coherent meanings need not assemble into one globally consistent feature. We introduce an atlas-native replacement object, the semantic section: a transport-compatible family of local feature representatives defined over a context atlas. We formalize semantic sections, prove that tree-supported propagation is always pathwise realizable, and show that cycle consistency is the key criterion for genuine globalization. This yields a distinction between tree-local, globalizable, and twisted sections, with twisted sections capturing locally coherent but holonomy-obstructed meanings. We then develop a discovery-and-certification pipeline based on seeded propagation, synchronization across overlaps, defect-based pruning, cycle-aware taxonomy, and deduplication. Across layer-16 atlases for Llama 3.2 3B Instruct, Qwen 2.5 3B Instruct, and Gemma 2 2B IT, we find nontrivial populations of semantic sections, including cycle-supported globalizable and twisted regimes after deduplication. Most importantly, semantic identity is not recovered by raw global-vector similarity. Even certified globalizable sections show low cross-chart signed cosine similarity, and raw similarity baselines recover only a small fraction of true within-section pairs, often collapsing at moderate thresholds. By contrast, section-based identity recovery is perfect on certified supports. These results support semantic sections as a better feature ontology in obstructed regimes.
研究动机与目标
- 用 Atlas 原生语义分区替代阻塞表示空间中的单一全局特征向量以提高表示能力。
- 形式化语义分区并根据循环一致性与holonomy将其分为树本地、全球化、扭曲等域。
- 开发并验证一个实用的种子传播管线,在冻结的 LLM Atlas 中发现、同步、剪枝并认证语义分区。
- 提供跨模型的经验性证据,表明语义分区在不同模型和层中可发现且结构异质。
提出的方法
- 将语义分区定义为在上下文 Atlas 上可传输的一组局部特征表示。
- 证明树本地扩展始终可实现,且带有环路传输的循环一致性决定真实的全球化。
- 引入发现与认证管线:种子传播、同步、基于缺陷的剪枝、面向循环的分 taxonomy 及去重。
- 按循环感知的分类法对发现的分区进行分类(全球化、扭曲、树本地、脆弱)。
- 将管线应用于 Llama 3.2 Instruct、Qwen 2.5 Instruct、Gemma 2 2B IT 的第16层 Atlas,并在种子之间进行去重。
- 提供实证的协议设置和阈值,以保持对语义分区的保守认证。

实验结果
研究问题
- RQ1阻塞表示空间是否允许全球可全球化的语义分区、扭曲分区,还是仅限于树本地一致性?
- RQ2种子传播管线是否能在多样化模型中可靠地发现并认证 Atlas 原生语义分区?
- RQ3语义身份是否比原始全局向量相似性更易被语义分区恢复,并且对阈值和层的变化有多大鲁棒性?
- RQ4在层16的模型家族(Llama、Qwen、Gemma)中,分区类型的经验分布如何?
主要发现
- 跨模型,在去重后存在全球化、扭曲、树本地的语义分区。
- Gemma 展现出最丰富的循环支持结构:14 个全球化、4 个扭曲、8 个树本地分区(总计 66 个去重分区)。
- Llama 产出稀疏但非冗余的清单(1 个全球化、1 个扭曲、2 个树本地、32 个脆弱分区);Qwen 显示更多树本地分区(5 个),全球化/扭曲较少(1–2)。
- 分区类型的几何轮廓显示全球化/扭曲分区具有较低的边缘缺陷均值和较低的全同态缺陷,而树本地分区的特征是零循环计数和较低的缺陷。
- 即使对经过认证的全球化分区,原始全局向量相似性也无法恢复语义身份;在经过认证支持的分区上,按分区方式的身份能被完美恢复。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。