[論文レビュー] Semantic Sections: An Atlas-Native Feature Ontology for Obstructed Representation Spaces
要約: 本論文は、意味的セクションを atlas-native の局所からグローバルへ拡張するオブジェクトとして導入し、循環的一貫性がグローバリゼーションを規定することを証明し、凍結された LLM アトラス全体で実用的な discovery-and-certification パイプラインを示し、ツリー局所の整合性を超えるグローバリゼーション可能なセクションとねじれたセクションの両方を実証する。
Recent interpretability work often treats a feature as a single global direction, dictionary atom, or latent coordinate shared across contexts. We argue that this ontology can fail in obstructed representation spaces, where locally coherent meanings need not assemble into one globally consistent feature. We introduce an atlas-native replacement object, the semantic section: a transport-compatible family of local feature representatives defined over a context atlas. We formalize semantic sections, prove that tree-supported propagation is always pathwise realizable, and show that cycle consistency is the key criterion for genuine globalization. This yields a distinction between tree-local, globalizable, and twisted sections, with twisted sections capturing locally coherent but holonomy-obstructed meanings. We then develop a discovery-and-certification pipeline based on seeded propagation, synchronization across overlaps, defect-based pruning, cycle-aware taxonomy, and deduplication. Across layer-16 atlases for Llama 3.2 3B Instruct, Qwen 2.5 3B Instruct, and Gemma 2 2B IT, we find nontrivial populations of semantic sections, including cycle-supported globalizable and twisted regimes after deduplication. Most importantly, semantic identity is not recovered by raw global-vector similarity. Even certified globalizable sections show low cross-chart signed cosine similarity, and raw similarity baselines recover only a small fraction of true within-section pairs, often collapsing at moderate thresholds. By contrast, section-based identity recovery is perfect on certified supports. These results support semantic sections as a better feature ontology in obstructed regimes.
研究の動機と目的
- 遮断された表現空間における単一のグローバル特徴ベクトルの置換として atlas-native セマンティックセクションを動機づける。
- セマンティックセクションを formalize し、循環的一貫性とホロノミーに基づいてツリーローカル、グローバリゼーション可能、ねじれた regime に分類する。
- 凍結された LLM アトラスにおいてセマンティックセクションを発見・同期・剪定・認証する実用的なシード伝播パイプラインを開発・検証する。
- セマンティックセクションがモデル間・層間で発見可能かつ構造的に異質であるというモデル横断の実証的エビデンスを提供する。
提案手法
- セマンティックセクションを context アトラス上の局所特徴代表の到達可能なファミリーとして定義する。
- ツリーローカル拡張が常に実現可能であること、循環的一貫性とループ輸送が真のグローバリゼーションを支配することを証明する。
- 発見・認証パイプラインを導入する:シード伝播、同期、欠陥ベースの剪定、循環意識の分類、重複排除。
- 循環意識の分類(グローバリゼーション可能、ねじれた、ツリーローカル、脆弱)ごとに discovered セクションを分類する。
- Llama 3.2 Instruct のレイヤー16アトラス、Qwen 2.5 Instruct、Gemma 2 2B IT のパイプラインを適用し、シード間の重複排除を行う。
- セマンティックセクションを保守的な認証を維持するための Empirical プロトコル設定と閾値を提供する。

実験結果
リサーチクエスチョン
- RQ1遮断された表現空間は globally グローバリゼーション可能なセマンティックセクション、ねじれたセクション、それともツリーローカルな整合性に限定されるか?
- RQ2シード伝播パイプラインは多様なモデル間で atlas-native セマンティックセクションを信頼性をもって発見・認証できるか?
- RQ3セマンティック同一性は生のグローバルベクトルの類似性よりもセマンティックセクションによってより良く回復されるか、しきい値や層の変化にどれくらい頑健か?
- RQ4モデルファミリー(Llama、Qwen、Gemma)における16層でのセクションタイプの経験的分布はどうなるか?
主な発見
- モデル間で、重複除去後にグローバリゼーション可能、ねじれた、ツリーローカルなセマンティックセクションが存在する。
- Gemma は循環支持構造が最も豊かで、グローバリゼーション可能が14、ねじれたが4、ツリーローカルが8で、重複除去済みセクションは合計66件。
- Llama は希薄ではあるが実質的な国勢調査を示す(1 グローバリゼーション可能、1 ねじれた、2 ツリーローカル、32 脆弱)。Qwen はツリーローカルセクションが多く(5)、グローバリゼーション可能/ねじれたは少ない(1–2)。
- セクション型の幾何学的プロファイルは、グローバリゼーション可能/ねじれたセクションが低い平均エッジ欠陥と低ホロノミー欠陥を示し、ツリーローカルセクションは循環数がゼロで欠陥が低い。
- 認証されたグローバリゼーション可能セクションであっても、生のグローバルベクトルの類似性は意味的同一性を回復できず、セクションベースのアプローチは認証済みサポート上でセクション内同一性を完全に回復する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。