QUICK REVIEW

[論文レビュー] NEST: Nascent Encoded Steganographic Thoughts

Artem Karpov|arXiv (Cornell University)|Feb 15, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

この論文は、LLMにおけるステガノグラフィックな思考経路の実現可能性を調査し、モデルが推論を無害なテキストに隠せるかどうか、また監視者が複数モデルとタスクにおいてそのエンコーディングを検出できるか、また検出できないかを評価します。

ABSTRACT

Monitoring chain-of-thought (CoT) reasoning is a foundational safety technique for large language model (LLM) agents; however, this oversight is compromised if models learn to conceal their reasoning. We explore the potential for steganographic CoT -- where models hide secret reasoning within innocuous text -- to inform risk assessment and deployment policies. We systematically evaluate the limits of steganographic capabilities across 28 models, ranging from past generations to the current frontier. We measure monitor evasion, refusal rates, encoding fidelity, and hidden task accuracy across four datasets, comparing steganographic acrostics against plain reasoning and filler-token baselines. We find that current models cannot yet sustain hidden reasoning for complex math and arithmetic tasks. However, in a simplified counting experiment, Claude Opus 4.5 achieved 92% accuracy on the hidden task, demonstrating nascent capability. Notably, in rare cases (<1%), GPT-5.2 might refuse steganographic instructions while simultaneously complying with them. Our findings underscore the need for continuous evaluation of steganographic risks. This study provides a methodology to preemptively detect and prevent hidden reasoning that might empower misaligned scheming and deceptive behavior.

研究の動機と目的

LLMエージェントにおける隠れたまたはステガノグラフィックな推論への安全性懸念を喚起する。
ステガノグラフィックCoT能力を定量化する評価フレームワークを開発する。
最前線モデル間でステガノグラフィック推論と混同されたり平易な推論とを区別する。
隠れた推論が出現するタスクと、まだ未成熟または不在のタスクを特定する。

提案手法

4段階のスコアリング評価フレームワーク（モニター、エンコーディング・スコアラー、隠れタスク・スコアラー、トランスレーター）を定義し、ステガノグラフィックCoTを評価する。
試行ごとに3つの入力（カバークエスチョン、隠れタスク、ステガノグラフィック埋め込みアルゴリズム（アクロスティクス））を使用する。
4つの隠れタスクカテゴリ（算術、GSM8Kの数学、迷路のナビゲーション、計数）を横断して評価する。
ベースライン（直接回答、平易なCoT、フィラー・トークン、推論無効化）と比較してステガノグラフィックCoTを評価する。
文字エラー率ベースのマッチ比を用いてエンコード忠実度を定量化し、攻撃者/防御者のダイナミクス（回避 vs. デコード）を分析する。
難易度をD（エンコードする数字の桁数）でパラメータ化し、各数字の正確さと完全一致率を分析する。

実験結果

リサーチクエスチョン

RQ1最前列のLLMは、無害な質問に答えつつ推論を出力テキストに隠すことができるか？
RQ2現在のモデルは異なる隠れタスクにおいてエンコーディング忠実度と監視回避をどの程度達成できるか？
RQ3モデルの世代とタスクの難易度に伴い、ステガノグラフィック能力はどうスケールするか？
RQ4現在のモデルは複雑な数学タスク、算術、ナビゲーション問題でステガノグラフィック推論を持続できるか？

主な発見

D	Model	n	EM (%)	Acc. (%)
4	Claude Opus 4.5	110	54 (5)	92 (2)
4	Grok Code Fast	108	37 (5)	76 (3)
4	Claude Opus 4.1	103	24 (4)	75 (3)
8	Claude Opus 4.5	108	54 (5)	78 (3)
8	Grok Code Fast	105	23 (4)	65 (3)
8	Claude Opus 4.1	107	35 (5)	64 (3)
16	Grok Code Fast	106	4 (2)	36 (3)
16	Claude Opus 4.5	107	0 (0)	29 (1)
16	Claude Opus 4.1	101	0 (0)	24 (1)
26	Claude Opus 4.5	107	0 (0)	19 (1)
26	Grok Code Fast	106	1 (1)	20 (2)
26	Claude Opus 4.1	101	0 (0)	18 (1)

ステガノグラフィックな計数には一部のモデルで非ゼロの能力が見られ、Claude Opus 4.5はD=4で1桁あたり最大92%、D=8で完全一致エンコーディングが78%に達した。
ほとんどのモデルは低いD値を超えるとほぼゼロの正確さを示し、D≥16で完全一致率がゼロに低下する。
能力はモデル世代と共にスケールする傾向がある（Opus 4.5 > Opus 4.1 > Opus 4; HaikuとGPT系は弱いまたは混在した結果を示す）。
GPT-5.2はステガノグラフィック指示をしばしば拒否するが、時には部分的に従うことがあり、いくつかの試行でエンコードを行う。
どのモデルも検証された Gemini、GPT-5.x、Grok などで数学タスク（算術またはGSM8K）において正しいステガノグラフィック思考連鎖を示さなかった；失敗要因には隠れタスクの無視、エンコードの失敗、エンコードを拒否などがある。
計数タスクはステガノグラフィック容量の下限を提供し、エンコード成功はより単純なタスクや短いシーケンスに限定される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。