[论文解读] On the State of the Art of Evaluation in Neural Language Models
该论文通过大规模黑箱超参数调优重新评估神经语言模型架构,表明经过适当正则化的标准LSTM在性能上优于更近期的模型(如RNN和NAS),在Penn Treebank和Wikitext-2上建立了新的最先进水平。研究强调了超参数未受控变化对模型评估的严重影响,并呼吁在深度学习研究中采用更严格的实验标准。
Ongoing innovations in recurrent neural network architectures have provided a steady influx of apparently state-of-the-art results on language modelling benchmarks. However, these have been evaluated using differing code bases and limited computational resources, which represent uncontrolled sources of experimental variation. We reevaluate several popular architectures and regularisation methods with large-scale automatic black-box hyperparameter tuning and arrive at the somewhat surprising conclusion that standard LSTM architectures, when properly regularised, outperform more recent models. We establish a new state of the art on the Penn Treebank and Wikitext-2 corpora, as well as strong baselines on the Hutter Prize dataset.
研究动机与目标
- 为应对由于模型评估中超参数未受控变化导致的深度学习复现失败风险日益增加的问题。
- 在受控的、大规模超参数调优条件下,比较主流循环架构(LSTM、RHN和NAS)的真实性能。
- 在Penn Treebank和Wikitext-2等标准基准上建立可靠且可复现的最先进基线。
- 证明超参数敏感性及实验控制不足可能导致关于模型优越性的错误结论。
- 倡导改进深度学习评估的方法论,包括降低超参数敏感性与标准化计算预算。
提出的方法
- 采用贝叶斯优化的黑箱超参数优化方法,对多个模型架构的6个关键超参数进行调优。
- 使用变分dropout和循环dropout进行正则化,且在时间步之间共享掩码以提升泛化能力。
- 在输入、层内和输出阶段应用dropout,每时间步使用独立的随机掩码以控制过拟合。
- 在LSTM中实现参数共享与不共享门的变体,以评估对架构选择的敏感性。
- 采用降维投影和共享嵌入以减少参数量,同时保持性能。
- 在多种模型规模和配置下进行广泛的消融研究,以验证结果的鲁棒性。
实验结果
研究问题
- RQ1当超参数被系统性调优时,RHN和NAS等新型模型报告的最先进性能是否依然成立?
- RQ2在正确正则化和调优的情况下,标准LSTM是否能优于更复杂的架构?
- RQ3模型结果对超参数选择的敏感性如何?这种敏感性能否被量化?
- RQ4超参数变化在多大程度上导致了神经语言建模中的复现失败?
- RQ5实现可靠、可复现的模型比较,其计算成本与收益如何?
主要发现
- 经过适当正则化的标准LSTM在Penn Treebank和Wikitext-2上均优于更新的模型(如RHN和NAS),创下新的最先进水平。
- 表现最佳的LSTM模型在Penn Treebank上的测试困惑度达到58.0,在Wikitext-2上达到60.4,优于此前报告的结果。
- 超参数调优显著提升了模型性能,1500次试验的贝叶斯优化方案在性能上优于需要近8000次试验的朴素网格搜索。
- 在最优设置附近,超参数空间表现良好,大多数邻近配置的困惑度与最优值相差不超过3.0。
- LSTM门的参数共享对性能影响极小,表明在超参数正确调优时,架构简化不会降低性能。
- 本研究证实,未受控的超参数变化是深度学习中不可靠结论的主要来源,尤其在模型改进趋于微小且渐进时更为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。