Skip to main content
QUICK REVIEW

[论文解读] Attention networks for image-to-text.

Jason Poulos, Rafael Valle|arXiv (Cornell University)|Dec 11, 2017
Handwritten Text Recognition Techniques被引用 6
一句话总结

本文提出一种基于注意力机制的编码器-解码器模型,用于图像到文本生成,该模型处理字符序列而非词序列。通过使用Softmax注意力机制,模型通过学习精确的线性对齐方式,实现了最低的测试误差,优于基于RNN的模型和Sigmoid注意力机制,后者尽管也是线性对齐,但对齐精度较低。

ABSTRACT

The paper approaches the problem of image-to-text with attention-based encoder-decoder networks that are trained to handle sequences of characters rather than words. We experiment on lines of text from a popular handwriting database with different attention mechanisms for the decoder. The model trained with softmax attention achieves the lowest test error, outperforming several other RNN-based models. Our results show that softmax attention is able to learn a linear alignment whereas the alignment generated by sigmoid attention is linear but much less precise.

研究动机与目标

  • 通过在字符级别而非词级别建模序列,提升图像到文本生成性能。
  • 在基于RNN的编码器-解码器框架中,评估不同注意力机制(特别是Softmax注意力和Sigmoid注意力)的表现。
  • 确定哪种注意力机制能实现图像特征与生成文本之间更精确的对齐。
  • 在图像到文本任务中,实现低于现有基于RNN模型的测试误差率。

提出的方法

  • 该模型采用编码器-解码器架构,其中两个组件均为循环神经网络(RNNs)。
  • 文本生成以字符为单位进行,解码器逐个字符进行预测。
  • 通过基于对齐得分加权编码器隐藏状态,使用Softmax注意力计算上下文向量。
  • Sigmoid注意力用作对比机制,通过Sigmoid激活函数生成对齐得分。
  • 模型在包含图像中文本行的手写数据库上进行端到端训练。
  • 注意力权重用于在每个解码步骤动态聚焦于相关图像区域。

实验结果

研究问题

  • RQ1在字符级别建模文本是否能提升图像到文本生成的性能?
  • RQ2Softmax注意力和Sigmoid注意力机制在学习图像特征与文本序列之间对齐方面有何差异?
  • RQ3Softmax注意力是否能实现比Sigmoid注意力更精确的线性对齐?
  • RQ4注意力机制的选择是否显著影响图像到文本任务中的测试误差?

主要发现

  • 采用Softmax注意力的模型在所有评估的基于RNN的模型中实现了最低的测试误差。
  • Softmax注意力能以高精度学习图像特征与文本序列之间的线性对齐。
  • Sigmoid注意力也产生线性对齐,但与Softmax注意力相比,其精度显著较低。
  • 结果表明,在此设置下,Softmax注意力在图像到文本生成任务中比Sigmoid注意力更有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。