[论文解读] Bootstrapping a Data-Set and Model for Question-Answering in Portuguese (Short Paper)
Transformer-XL 提出了一种新颖的架构,通过结合分段级循环和相对位置编码,实现了长距离序列建模,使注意力机制能够捕捉比 RNN 长 80%、比原始 Transformer 长 450% 的依赖关系,同时在语言建模任务中实现了最先进性能,推理速度最快可达原始 Transformer 的 1,800 倍。
Question answering systems are mainly concerned with fulfilling an information query written in natural language, given a collection of documents with relevant information. They are key elements in many popular application systems as personal assistants, chat-bots, or even FAQ-based online support systems. This paper describes an exploratory work carried out to come up with a state-of-the-art model for question-answering tasks, for the Portuguese language, based on deep neural networks. We also describe the automatic construction of a data-set for training and testing the model. The final model is not trained in any specific topic or context, and is able to handle generic documents, achieving 50% accuracy in the testing data-set. While the results are not exceptional, this work can support further development in the area, as both the data-set and model are publicly available.
研究动机与目标
- 为了解决标准 Transformer 和 RNN 中固定长度上下文的限制,该限制限制了长期依赖关系的建模。
- 解决在孤立的、固定长度的分段上进行训练所导致的上下文碎片化问题。
- 在不破坏时间连贯性的情况下,实现在分段之间的有效信息流动。
- 在语言建模任务中,同时提升短序列和长序列的性能。
- 在多种语言建模基准上实现更快的推理速度和更好的泛化能力。
提出的方法
- 通过重用前一子段的隐藏状态作为当前子段的记忆,引入分段级循环机制。
- 提出一种相对位置编码方案,使模型能够泛化到训练时未见过的更长注意力长度。
- 将绝对位置编码替换为相对位置编码,以在重用记忆时保持时间一致性。
- 使用带有固定长度上下文窗口的记忆增强型 Transformer 解码器,但通过循环机制使上下文能够跨越多个子段。
- 在各子段之间应用相同的自注意力机制,使注意力能够关注到当前子段之外的标记。
- 在分段数据上端到端训练模型,但通过记忆重用和相对位置编码实现长距离建模。
实验结果
研究问题
- RQ1自注意力模型能否学习到比 RNN 和原始 Transformer 更长的依赖关系?
- RQ2使用记忆重用的分段级循环是否能在不破坏时间连贯性的情况下提升长上下文建模能力?
- RQ3相对位置编码能否使注意力机制在超过训练上下文长度的序列上依然有效?
- RQ4Transformer-XL 在短序列和长序列语言建模基准上的表现如何?
- RQ5该模型能否在无需微调的情况下生成连贯的长篇文本?
主要发现
- 在不进行微调的情况下,Transformer-XL 在 enwiki8 上的测试困惑度为 0.99,在 text8 上为 1.08,在 WikiText-103 上为 18.3,在 One Billion Word 上为 21.8,在 Penn Treebank 上为 54.5。
- 该模型捕捉的依赖关系比 RNN 长 80%,比原始 Transformer 长 450%。
- 在推理过程中,由于高效的内存重用,Transformer-XL 的速度最快可达原始 Transformer 的 1,800 倍。
- 仅在 WikiText-103 的 1 亿个 token 上进行训练,该模型即可生成数千个 token 的连贯、新颖的文本文章。
- 在长文本生成中,该模型保持了主题一致性和时间连贯性,如 WikiText-103 测试集中的 1,000 个 token 样本所示。
- 相对位置编码对于稳定记忆重用至关重要,并能防止长序列中的时间混淆。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。