QUICK REVIEW

[论文解读] Towards Data Distillation for End-to-end Spoken Conversational Question Answering

Chenyu You, Nuo Chen|arXiv (Cornell University)|Oct 18, 2020

Topic Modeling参考文献 37被引用 26

一句话总结

本文介绍了 Spoken-CoQA，一个包含超过 120,000 个问答对的新多轮口语对话问答数据集，并提出了 DDNet，一种统一的知识蒸馏框架，通过融合音频与文本特征来减少自动语音识别（ASR）输出与参考转录文本之间的错位。DDNet 通过利用交叉注意力机制和知识蒸馏，显著提升了问答性能，在基于 BERT 的模型上实现了高达 44.8% 的 EM 和 59.6% 的 F1，展现出对 ASR 错误的优越鲁棒性。

ABSTRACT

In spoken question answering, QA systems are designed to answer questions from contiguous text spans within the related speech transcripts. However, the most natural way that human seek or test their knowledge is via human conversations. Therefore, we propose a new Spoken Conversational Question Answering task (SCQA), aiming at enabling QA systems to model complex dialogues flow given the speech utterances and text corpora. In this task, our main objective is to build a QA system to deal with conversational questions both in spoken and text forms, and to explore the plausibility of providing more cues in spoken documents with systems in information gathering. To this end, instead of adopting automatically generated speech transcripts with highly noisy data, we propose a novel unified data distillation approach, DDNet, which directly fuse audio-text features to reduce the misalignment between automatic speech recognition hypotheses and the reference transcriptions. In addition, to evaluate the capacity of QA systems in a dialogue-style interaction, we assemble a Spoken Conversational Question Answering (Spoken-CoQA) dataset with more than 120k question-answer pairs. Experiments demonstrate that our proposed method achieves superior performance in spoken conversational question answering.

研究动机与目标

为解决缺乏结合语音与文本的多轮口语对话问答数据集，以实现更真实的对话式人机交互。
缓解口语问答系统中因自动语音识别（ASR）错误导致的性能下降问题。
探索如何联合利用音频与文本模态以提升对话式问答中的上下文理解能力。
开发一种统一的知识蒸馏框架，利用音频-文本对应关系，将噪声 ASR 转录与参考转录对齐。
评估在端到端口语对话问答中模态融合与蒸馏策略的有效性。

提出的方法

提出 DDNet，一种新颖的知识蒸馏框架，采用学生-教师范式，通过联合音频-文本特征学习，将 ASR 假设与参考转录对齐。
采用交叉注意力机制融合语音与文本嵌入，使学生模型能够从两种模态中学习，减少错位。
引入温度控制的知识蒸馏策略，提升教师模型（在干净文本与语音上）向学生模型（在噪声 ASR 输出上）的软标签迁移效果。
采用双分支 BERT 基架构：一个分支处理语音特征（对数梅尔倒谱图、MFCC），一个分支处理文本，通过特征拼接与交叉注意力融合。
使用多个教师模型进行知识蒸馏：一个在干净文本上，一个在原始语音上，一个在 ASR 转录上，以指导学生模型。
采用 Con Fusion 机制作为模态融合的基线，在消融实验中与所提出的交叉注意力融合方法进行比较。

实验结果

研究问题

RQ1统一的知识蒸馏框架能否有效减少口语对话问答中噪声 ASR 转录与参考转录之间的错位？
RQ2与仅使用语音或文本特征相比，联合音频-文本特征学习在多大程度上提升了问答性能？
RQ3从多个教师模型（文本、语音、ASR）进行知识蒸馏，能在多大程度上提升问答系统对 ASR 错误的鲁棒性？
RQ4在口语问答的模态融合中，交叉注意力融合音频与文本嵌入是否优于简单的拼接方法？
RQ5在多模态、噪声 ASR 的设定下，知识蒸馏的最优温度超参数是多少？

主要发现

DDNet 在 ALBERT-base 模型上达到 44.8% 的 EM 和 59.6% 的 F1，相比无蒸馏基线，F1 提升了 3.6 个百分点。
知识蒸馏策略在 FlowQA 上提升 F1 3.1%，在 SDNet 上提升 3.1%，在 BERT-base 上提升 2.9%，表明在不同架构中均实现稳定增益。
交叉注意力融合机制优于简单拼接（Con Fusion）基线，在 CoQA 开发集上提升 F1 1.2%，在 Spoken-CoQA 测试集上提升 1.1%。
消融实验确认，最优温度超参数 τ = 2 在所有四个基线（FlowQA、SDNet、BERT、ALBERT）上均表现最佳。
仅使用文本的输入优于仅使用语音的输入，表明仅语音特征会引入噪声，而音频-文本融合能显著提升性能。
DDNet 有效减轻了 ASR 错误的负面影响，在 S-CoQA 测试集上，应用蒸馏后 F1 相对提升 40.4%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。