[论文解读] Learning the Enigma with Recurrent Neural Networks
本文提出一种基于长短期记忆(LSTM)网络的序列到序列RNN模型,通过在明文-密文对上进行训练,学习多表代换密码的解密函数——具体包括维吉尼亚密码、自动密钥密码和三轮转子恩尼格玛密码。关键贡献在于证明RNN能够自主学习复杂、确定性密码的高效内部表征,并通过已知明文攻击执行密码分析,即使在未见过的密钥和更长消息上也具备泛化能力。
Recurrent neural networks (RNNs) represent the state of the art in translation, image captioning, and speech recognition. They are also capable of learning algorithmic tasks such as long addition, copying, and sorting from a set of training examples. We demonstrate that RNNs can learn decryption algorithms -- the mappings from plaintext to ciphertext -- for three polyalphabetic ciphers (Vigenère, Autokey, and Enigma). Most notably, we demonstrate that an RNN with a 3000-unit Long Short-Term Memory (LSTM) cell can learn the decryption function of the Enigma machine. We argue that our model learns efficient internal representations of these ciphers 1) by exploring activations of individual memory neurons and 2) by comparing memory usage across the three ciphers. To be clear, our work is not aimed at 'cracking' the Enigma cipher. However, we do show that our model can perform elementary cryptanalysis by running known-plaintext attacks on the Vigenère and Autokey ciphers. Our results indicate that RNNs can learn algorithmic representations of black box polyalphabetic ciphers and that these representations are useful for cryptanalysis.
研究动机与目标
- 开发一种通用的、自动化的黑箱多表代换密码解密逻辑逆向工程方法。
- 探究RNN是否能在不了解其结构的前提下,学习复杂密码的算法表征。
- 评估模型在未见过的密钥和消息长度上的泛化能力。
- 探索RNN中的内存使用是否与密码加密过程的时间依赖性相关。
- 展示所学表征在密码分析任务(如密钥短语重构)中的实用性。
提出的方法
- 模型将解密建模为序列到序列翻译任务,采用3000个单元的LSTM网络。
- 训练数据由每种密码对应的明文-密文序列对及其相应密钥短语组成。
- 模型将每个字符作为独热向量处理,并通过LSTM隐藏状态隐式实现类似注意力的机制。
- 通过在训练长度之外的未见密钥和更长消息序列上评估模型性能,检验泛化能力。
- 通过可视化不同密码下单个记忆单元的激活值,分析内部表征。
- 通过在输入中同时包含明文和密文向量,训练模型预测密钥短语,实现密钥短语重构。
实验结果
研究问题
- RQ1RNN能否仅从输入-输出示例中学习到像恩尼格玛这样的复杂多表代换密码的确定性解密函数?
- RQ2RNN所需的内存容量是否与密码加密过程的时间依赖性相关?
- RQ3RNN能否泛化到训练中未见过的密钥和比训练时更长的消息序列?
- RQ4LSTM记忆单元的内部激活是否反映了底层密码的有意义结构特性?
- RQ5所学内部表征能否用于密码分析任务(如密钥短语重构)?
主要发现
- LSTM模型在解密维吉尼亚密码和自动密钥密码时准确率超过99%,其中自动密钥密码因密钥动态更新而需要更多内存。
- 模型在未见密钥和超过训练集长度的消息序列上表现出有效的泛化能力,表明其具备稳健的内部表征学习能力。
- 内存使用随密码复杂度增加而增加:恩尼格玛所需内存显著高于维吉尼亚密码,反映出其更高的时间依赖性。
- LSTM单个记忆单元的激活值反映了密码的定性特征,表明存在结构化的内部表征。
- 模型成功以超过99%的准确率重构了1至6个字符的维吉尼亚密钥短语,自动密钥密码的密钥短语重构准确率超过95%。
- 本研究证明RNN可通过已知明文攻击执行基础密码分析,揭示所学表征在逆向工程密码中的实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。