QUICK REVIEW

[论文解读] Unsupervised Cipher Cracking Using Discrete GANs

Aidan N. Gomez, Sicong Huang|arXiv (Cornell University)|Jan 15, 2018

Advanced Malware Detection Techniques参考文献 23被引用 24

一句话总结

该论文提出CipherGAN，一种受CycleGAN启发的基于离散生成对抗网络（GAN）的框架，可无监督地学习将未配对的密文和明文序列映射以破解移位密码和维吉尼亚密码。通过在带有雅可比范数正则化的嵌入空间中操作，该方法在字符级密码上实现了接近完美的准确率（最高达99.8%），在大规模词汇量的词级维吉尼亚密码上达到75.7%的准确率，同时通过离散变量的连续松弛避免了无信息判别问题。

ABSTRACT

This work details CipherGAN, an architecture inspired by CycleGAN used for inferring the underlying cipher mapping given banks of unpaired ciphertext and plaintext. We demonstrate that CipherGAN is capable of cracking language data enciphered using shift and Vigenere ciphers to a high degree of fidelity and for vocabularies much larger than previously achieved. We present how CycleGAN can be made compatible with discrete data and train in a stable way. We then prove that the technique used in CipherGAN avoids the common problem of uninformative discrimination associated with GANs applied to discrete data.

研究动机与目标

开发一种完全无监督的神经网络框架，从未配对的明文和密文序列中推断密码映射，无需人工提供的语言学知识。
稳定CycleGAN在离散序列数据上的训练，此类数据通常不稳定且对权重初始化敏感。
通过引入嵌入空间操作的连续松弛，解决在离散数据中应用GAN时常见的无信息判别问题。
证明该模型在不同密码类型和词汇量（包括大规模词汇量，如200个词）之间具有泛化能力，涵盖带标点符号的字符级密码。
通过将密码破解视为零样本语言翻译问题，为无监督文本到文本翻译建立基础。

提出的方法

通过利用循环一致性损失，将CycleGAN架构适配至离散序列数据，训练生成器以学习明文与密文分布之间的双射映射。
通过学习的嵌入实现离散变量的连续松弛，使反向传播过程中可实现离散标记的梯度流动。
应用雅可比范数正则化以稳定训练并降低对权重初始化的敏感性，提升所有训练运行的收敛性。
使用时间信号——具体为将学习的位置嵌入向量拼接至输入嵌入——以保持序列结构，这对维吉尼亚密码尤其关键。
采用在重构序列上运行的判别器，将其与真实序列进行比较，通过对抗训练强制保持忠实度。
通过结合对抗损失、循环一致性损失和梯度惩罚（α=10）进行训练，以提升训练稳定性和泛化能力。

实验结果

研究问题

RQ1基于GAN的模型能否在无须人工标注语言学特征的情况下，从未配对的明文和密文序列中学习逆向工程密码映射？
RQ2如何使CycleGAN在离散序列数据（如文本）上稳定并有效，以克服标准GAN在该类数据中常见的梯度消失和无信息判别问题？
RQ3在嵌入空间中通过连续松弛是否能缓解离散GAN中的无信息判别问题？
RQ4该模型在不同密码类型（如移位密码与维吉尼亚密码）和词汇量之间具有多大程度的泛化能力？
RQ5该模型能否在大规模词汇量密码（如200词词汇）上实现高准确率，而此前的方法在该任务上表现不佳？

主要发现

CipherGAN在10个词词汇量的移位密码上达到100%准确率，在200个词词汇量的移位密码上达到98.7%准确率，表明其在不同词汇量下均具有鲁棒性。
在密钥长度为3的维吉尼亚密码上，模型在字符级映射中达到99.7%准确率，在词级映射中达到75.7%准确率，显著优于基线频率分析方法。
模型在所有训练运行中表现出近乎完美的稳定性，无任何失败运行——而原始CycleGAN仅在约50%的训练运行中成功。
使用位置嵌入（特别是拼接学习的位置向量）显著提升了维吉尼亚密码的性能，但限制了其在更长序列上的泛化能力。
模型的初始映射始终对最常见字符正确，表明其利用了频率统计信息，与经典密码分析方法类似。
模型频繁混淆标点符号，表明其skip-gram嵌入过于相似，导致持续误分类。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。