QUICK REVIEW

[논문 리뷰] Automatically Generate Steganographic Text Based on Markov Model and Huffman Coding

Zhongliang Yang, Shuyu Jin|arXiv (Cornell University)|2018. 11. 12.

Advanced Steganography and Watermarking Techniques참고 문헌 17인용 수 29

한 줄 요약

이 논문은 대규모 인간이 작성한 텍스트에서 학습하여 통계적으로 자연스러운 캐리어를 생성하고, 높은 정밀도와 향상된 페이로드 용량을 갖춘 유려하고 인간처럼 들리는 텍스트에 기밀 데이터를 임베딩하는 데 사용되는 마르코프 체인 모델과 허프만 부호화를 활용한 자동 스테고그래피 텍스트 생성 방법을 제안한다. 이는 기존 방법에 비해 보안성과 효율성 측면에서 뛰어난 성능을 보인다.

ABSTRACT

Steganography, as one of the three basic information security systems, has long played an important role in safeguarding the privacy and confidentiality of data in cyberspace. The text is the most widely used information carrier in people's daily life, using text as a carrier for information hiding has broad research prospects. However, due to the high coding degree and less information redundancy in the text, it has been an extremely challenging problem to hide information in it for a long time. In this paper, we propose a steganography method which can automatically generate steganographic text based on the Markov chain model and Huffman coding. It can automatically generate fluent text carrier in terms of secret information which need to be embedded. The proposed model can learn from a large number of samples written by people and obtain a good estimate of the statistical language model. We evaluated the proposed model from several perspectives. Experimental results show that the performance of the proposed model is superior to all the previous related methods in terms of information imperceptibility and information hidden capacity.

연구 동기 및 목표

낮은 재현성과 높은 코딩 밀도로 인해 탐지 가능성이 높은 텍스트에 기밀 데이터를 최소한의 탐지 가능성을 갖도록 임베딩하는 문제를 해결하기 위해.
기밀 메시지 길이에 맞게 자동으로 유려하고 인간처럼 들리는 텍스트 캐리어를 생성하는 자동화된 시스템을 개발하기 위해.
기존 방법에 비해 정보 은닉 용량과 정밀도 측면에서 스테고그래픽 성능을 향상시키기 위해.
통계적 언어 모델링과 효율적인 부호화 기법을 활용하여 강력하고 확장 가능한 스테고그래피 텍스트 생성을 가능하게 하기 위해.

제안 방법

대규모 인간이 작성한 텍스트 코퍼스를 기반으로 훈련된 고차수 마르코프 체인 모델을 사용하여 단어 조합의 확률 분포를 추정한다.
기밀 메시지를 이진 스트림으로 압축하기 위해 허프만 부호화를 사용하여 페이로드 크기를 최소화하고 임베딩 효율성을 향상시킨다.
생성된 텍스트를 동적으로 샘플링하면서도, 압축된 비트 스트림을 사용해 메시지를 원활하게 인코딩할 수 있도록 보장한다.
기본적으로 메시지의 비트 패턴과 일치하는 확률을 갖는 단어를 선택하여, 허프만으로 압축된 기밀 데이터를 생성된 텍스트에 통합한다.
맥락 기반의 확률적 단어 선택을 통해 문법적 및 의미적 일관성을 유지함으로써 언어적 유창성을 확보한다.
완전히 자동화된 방법으로, 캐리어 생성을 위한 수동 입력이 필요 없으며, 기밀 메시지 길이에 맞게 자동으로 조정된다.

실험 결과

연구 질문

RQ1자연어 코퍼스에서 훈련된 마르코프 모델이 스테고그래픽 임베딩에 적합한 유려하고 인간처럼 들리는 텍스트를 생성할 수 있는가?
RQ2허프만 부호화는 임베딩 용량과 정밀도를 유지하면서 페이로드 크기를 얼마나 효과적으로 줄일 수 있는가?
RQ3제안된 방법은 정보 은닉 용량과 통계적 탐지 불가능성 측면에서 기존의 스테고그래픽 텍스트 기법에 비해 어느 정도 뛰어나게 성능을 발휘하는가?
RQ4시스템은 인간의 간섭 없이 기밀 메시지 길이에 맞게 자동으로 텍스트 캐리어를 생성할 수 있는가?

주요 결과

제안된 방법은 이전의 스테고그래픽 텍스트 기법에 비해 정보 은닉 용량 측면에서 뛰어난 성능을 달성한다.
통계적 평가 및 인지적 평가를 통해 검증된 결과, 생성된 스테고그래픽 텍스트는 높은 언어적 유창성과 자연스러움을 보인다.
허프만 부호화의 통합은 페이로드 크기를 크게 줄여 임베딩 효율성을 향상시키고 탐지 가능성을 감소시킨다.
실험 결과에 따르면 모델은 강력한 정밀도를 보이며 자연어 분포와의 통계적 편차가 매우 낮다.
시스템은 스테고그래픽 텍스트 캐리어의 생성을 성공적으로 자동화하여 수동 선택이나 편집이 필요 없어졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.