QUICK REVIEW

[논문 리뷰] Unsupervised Cipher Cracking Using Discrete GANs

Aidan N. Gomez, Sicong Huang|arXiv (Cornell University)|2018. 01. 15.

Advanced Malware Detection Techniques참고 문헌 23인용 수 24

한 줄 요약

이 논문은 CycleGAN에 영감을 받은 이산 GAN 기반 프레임워크인 CipherGAN을 제안한다. 이는 비쌍체의 암호문 및 복호문 시퀀스를 무 supervision으로 교정 시프트 암호 및 비그너 암호를 해독할 수 있도록 학습한다. 자코비안 노름 정규화를 적용한 임bedding 공간에서 작동함으로써, 문자 수준의 암호에서는 거의 완벽한 정확도(최대 99.8%)를 달성하고, 대용량 어휘를 가진 단어 수준의 비그너 암호에서는 75.7%의 정확도를 기록한다. 이는 이산 변수의 연속적 리프레젠테이션을 통해 정보가 없는 분류 문제를 피함으로써 달성된다.

ABSTRACT

This work details CipherGAN, an architecture inspired by CycleGAN used for inferring the underlying cipher mapping given banks of unpaired ciphertext and plaintext. We demonstrate that CipherGAN is capable of cracking language data enciphered using shift and Vigenere ciphers to a high degree of fidelity and for vocabularies much larger than previously achieved. We present how CycleGAN can be made compatible with discrete data and train in a stable way. We then prove that the technique used in CipherGAN avoids the common problem of uninformative discrimination associated with GANs applied to discrete data.

연구 동기 및 목표

비쌍체의 복호문 및 암호문을 인간이 제공한 언어학적 지식 없이도 암호 매핑을 추론할 수 있는 완전히 비 supervision 신경망 프레임워크를 개발하는 것.
기본적으로 불안정하고 가중치 초기화에 민감한 이산 순차 데이터에 대해 CycleGAN의 학습을 안정화하는 것.
이산 데이터에 적용된 GAN에서 흔히 발생하는 정보가 없는 분류 문제를 해결하기 위해 임bedding 공간 연산을 통한 연속적 리프레젠테이션을 도입하는 것.
모델이 다양한 암호 유형과 어휘 크기, 특히 대용량 어휘(예: 200단어)와标점 기호가 포함된 문자 수준의 암호에 대해 일반화 가능한지 입증하는 것.
암호 해독을 제로샷 언어 번역 문제로 간주함으로써 비 supervision 텍스트-투-텍스트 번역을 위한 기반을 마련하는 것.

제안 방법

사이클 일致성 원리를 사용하여 복호문 및 암호문 분포 간의 이항 매핑을 학습하는 생성자 모델을 훈련시킴으로써, CycleGAN 아키텍처를 이산 순차 데이터에 적응시킴.
학습된 임bedding을 통해 이산 변수의 연속적 리프레젠테이션을 도입하여, 역전파 동안 이산 토큰을 통한 기울기 흐름을 가능하게 함.
학습 안정화와 가중치 초기화 민감도 감소를 위해 자코비안 노름 정규화를 적용함으로써 모든 실행에서 수렴성을 향상시킴.
특히 비그너 암호에서 중요한 시퀀스 구조 유지에 기여하기 위해, 입력 임bedding에 학습된 위치 임bedding을 연결한 타이밍 신호를 사용함.
재구성된 시퀀스를 실제 시퀀스와 비교하여 적대적 학습을 통해 충실도를 강제하는 디스criminator를 사용함.
학습 안정성과 일반화를 향상시키기 위해 적대적 손실, 사이클 일치 손실 및 기울기 페널티(α=10)의 조합을 사용함.

실험 결과

연구 질문

RQ1GAN 기반 모델은 인간이 제공한 언어학적 특징 없이도 비쌍체의 복호문 및 암호문 시퀀스에서 암호 매핑을 역공학적으로 학습할 수 있는가?
RQ2표준 GAN이 기울기 소멸 문제와 정보가 없는 분류 문제로 어려움을 겪는 이산 순차 데이터(예: 텍스트)에 대해 CycleGAN을 어떻게 안정화하고 효과적으로 만들 수 있는가?
RQ3연속적 리프레젠테이션을 통한 임bedding 공간에서의 운영이 이산 GAN에서 정보가 없는 분류 문제를 완화하는가?
RQ4이러한 모델이 다양한 암호 유형(예: 시프트 대비 비그너)과 어휘 크기 간에 얼마나 일반화 가능한가?
RQ5기존 방법이 어려움을 겪는 대용량 어휘 암호(예: 200단어 어휘)에서 모델이 높은 정확도를 달성할 수 있는가?

주요 결과

10단어 어휘에서 시프트 암호에서는 100% 정확도를 기록했고, 200단어 어휘에서는 98.7%의 정확도를 기록하여 어휘 크기 간에 뛰어난 강건성을 입증함.
키 길이가 3인 비그너 암호에서 문자 수준 매핑은 99.7%의 정확도를 기록했고, 단어 수준 매핑은 75.7%의 정확도를 기록하여 기준 주파수 분석보다 뚜렷이 뛰어남.
학습 실행 간에 거의 완벽한 일致성을 보였으며, 실패한 실행이 전혀 없었음. 이는 원래의 CycleGAN이 약 50%의 실행에서만 성공한 것과 대비됨.
특히 학습된 위치 벡터를 연결한 위치 임bedding의 사용이 비그너 암호 성능을 크게 향상시켰지만, 더 긴 시퀀스로의 일반화를 제한함.
모델의 초기 매핑은 항상 빈도가 높은 문자들에 대해 일致적으로 정확했으며, 이는 고전적 암호 분석과 유사하게 빈도 통계를 활용하고 있음을 시사함.
모델은 문장 부호 기호를 자주 혼동했으며, 이는 스위프트그램 임bedding이 너무 유사하여 지속적인 오분류가 발생했기 때문임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.