QUICK REVIEW

[論文レビュー] An Approach for Text Steganography Based on Markov Chains

H. Hernan Moraldo|arXiv (Cornell University)|Sep 2, 2014

Advanced Steganography and Watermarking Techniques被引用数 23

ひとこと要約

本稿では、遷移確率の単純化を避けることで、従来の手法よりも元の言語モデルの統計的性質をより正確に保持する、マルコフ連鎖に基づくテキストステガノグラフィー手法を提示する。確率的整合性を維持する洗練されたエンコード処理と、ヘッダーに基づく長さ信号を用いた可変長データ埋め込みを実現することで、より自然に見えるテキストを生成し、高いステガノグラフィック容量と低い検出可能性を達成する。

ABSTRACT

A text steganography method based on Markov chains is introduced, together with a reference implementation. This method allows for information hiding in texts that are automatically generated following a given Markov model. Other Markov - based systems of this kind rely on big simplifications of the language model to work, which produces less natural looking and more easily detectable texts. The method described here is designed to generate texts within a good approximation of the original language model provided.

研究の動機と目的

従来のマルコフベースのステガノグラフィー手法が遷移確率を単純化するという限界を是正し、不自然または検出可能なテキストを生じさせないことを目的とする。
テキスト生成中に元のマルコフ言語モデルの高精度な近似を維持するステガノグラフィックシステムを開発すること。
事前にデータサイズを知らなくても正しく復号可能であるヘッダーに基づく長さ信号化メカニズムを導入し、可変長データ埋め込みを可能にすること。
再現可能性と実用的評価を可能にするために、オープンソースの MarkovTextStego ツールに参考実装を提供すること。

提案手法

本手法は、出力確率を均一化するという従来のシステムで一般的な単純化を避ける、非一様遷移確率を有する完全なマルコフ連鎖モデルを用いる。
テキスト生成はマルコフ連鎖の遷移確率に従い、語の系列が元の言語モデルの統計的構造を反映するようにする。
固定サイズのヘッダー符号化ステップにより、事前に定義されたサイズパラメータ m を用いて秘密データの長さを符号化し、可変長データ処理を可能にする。
実際のデータはヘッダーテキストの最後の語からエンコードを開始することで、連続性を保ち、ステガノテキストにおける文の途中切れを回避する。
復号関数はまずヘッダー長を抽出し、その後、ヘッダーの最後の語を初期状態として、残りのテキストからデータを復号する。
任意の後処理として、エンコード済みテキストの末尾にランダムで文法的に完全な文を追加し、復号の整合性を保ちつつペイロードに影響を与えない。

実験結果

リサーチクエスチョン

RQ1マルコフ連鎖ベースのステガノグラフィー手法は、遷移確率を単純化する従来の手法よりも、元の言語モデルの統計的性質をより正確に保持できるか？
RQ2復号時に事前にデータサイズを知らなくても、可変長データをステガノテキストに埋め込む方法は何か？
RQ3実際の文学テキストから導出した現実的なマルコフモデルを用いた場合、このシステムの実現可能なステガノグラフィック容量はどの程度か？
RQ4従来の手法と比較して、この手法のステガノテキストの自然さとステガノグラフィー分析に対する耐性は、どのように評価できるか？

主な発見

大規模なマルコフ連鎖（実際の文学テキストから抽出）を用いた場合、本手法は、元のデータサイズの約6〜7倍のステガノグラフィックペイロードサイズを達成する。
圧縮後、ステガノテキストは元のデータサイズの約2倍にまで収縮し、高い圧縮効率を示している。
小規模なデータサイズ（数バイト程度）では、ペイロード対ステガノテキストサイズ比が最大で9:1に達するが、ペイロードが大きくなるほどこの比は改善する。
事前にサイズを知らなくても正しく復号可能であるヘッダーに基づく長さ信号化メカニズムを用いることで、本システムは可変長データ埋め込みを成功裏に実現している。
参考実装である MarkovTextStego は公開されており、本手法の実用的実現可能性を示している。
実験的結果から、確率的構造が保持されているため、従来の手法よりも自然に見えるテキストが生成され、ステガノグラフィー分析における検出可能性が低下する可能性があると示唆されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。