[论文解读] Are you talking to a machine? Dataset and methods for multilingual image question answering
本文提出了mQA模型用于多语言图像问答任务,结合LSTM与CNN架构分别处理问题和图像,随后融合两者生成答案。在包含31万个多语言问答对的FM-IQA数据集上评估,该模型在64.7%的图灵测试中表现得与人类难以区分,平均答案质量得分为2分制中的1.454分。
In this paper, we present the mQA model, which is able to answer questions about the content of an image. The answer can be a sentence, a phrase or a single word. Our model contains four components: a Long Short-Term Memory (LSTM) to extract the question representation, a Convolutional Neural Network (CNN) to extract the visual representation, an LSTM for storing the linguistic context in an answer, and a fusing component to combine the information from the first three components and generate the answer. We construct a Freestyle Multilingual Image Question Answering (FM-IQA) dataset to train and evaluate our mQA model. It contains over 150,000 images and 310,000 freestyle Chinese question-answer pairs and their English translations. The quality of the generated answers of our mQA model on this dataset is evaluated by human judges through a Turing Test. Specifically, we mix the answers provided by humans and our model. The human judges need to distinguish our model from the human. They will also provide a score (i.e. 0, 1, 2, the larger the better) indicating the quality of the answer. We propose strategies to monitor the quality of this evaluation process. The experiments show that in 64.7% of cases, the human judges cannot distinguish our model from humans. The average score is 1.454 (1.918 for human). The details of this work, including the FM-IQA dataset, can be found on the project page: http://idl.baidu.com/FM-IQA.html.
研究动机与目标
- 开发一种能够生成句子、短语或词级别答案的多语言图像问答模型。
- 构建高质量、大规模的多语言数据集,用于训练和评估图像问答系统。
- 通过人工标注的图灵测试评估模型性能,以衡量生成答案的人类相似度。
- 通过监控策略确保人工判断质量,实现可靠评估。
- 通过包含中文和英文问题-答案对,实现跨语言理解。
提出的方法
- 使用长短期记忆网络(LSTM)对输入问题的语言表征进行编码。
- 采用卷积神经网络(CNN)从输入图像中提取视觉特征。
- 使用第二个LSTM在答案生成过程中建模语言上下文,保持序列连贯性。
- 通过融合组件将问题、图像和答案上下文表征整合,生成最终答案。
- 在包含15万个图像和31万个多语言问答对的自由式多语言图像问答(FM-IQA)数据集上进行模型训练与评估。
- 采用人工标注的图灵测试评估模型性能,由人工裁判区分模型生成与人类生成的答案。
实验结果
研究问题
- RQ1多模态深度学习模型能否生成与人类回答无法区分的图像问答答案?
- RQ2mQA模型在中文和英文多语言图像问答任务中的表现如何?
- RQ3在受控图灵测试中,人类裁判在多大程度上能可靠地区分模型生成与人类生成的答案?
- RQ4通过人工标注评分,模型生成答案的质量与人类答案相比如何?
- RQ5在多语言图像问答基准测试中,可采取哪些策略确保人工评估的可靠性和一致性?
主要发现
- mQA模型在图灵测试中实现了64.7%的人类难以区分率,表明其答案生成具有较强的类人特征。
- mQA模型的平均答案质量得分为2分制中的1.454分,而人类生成答案的得分为1.918分。
- FM-IQA数据集包含超过15万个图像和31万个中英文自由式问答对。
- 通过严格的人员评估流程及质量监控策略,验证了模型性能的可靠性。
- 结果表明,mQA模型能够在多种语言中生成高质量、上下文相关的答案。
- 项目主页 http://idl.baidu.com/FM-IQA.html 提供了数据集和模型详情的访问。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。