[论文解读] One Model To Learn Them All
本文提出 MultiModel,一种在视觉、语言、语音与解析等八项多样任务上共同训练的单一深度模型,展示了迁移和跨领域的优势。
Deep learning yields great results across many fields, from speech recognition, image classification, to translation. But for each problem, getting a deep model to work well involves research into the architecture and a long period of tuning. We present a single model that yields good results on a number of problems spanning multiple domains. In particular, this single model is trained concurrently on ImageNet, multiple translation tasks, image captioning (COCO dataset), a speech recognition corpus, and an English parsing task. Our model architecture incorporates building blocks from multiple domains. It contains convolutional layers, an attention mechanism, and sparsely-gated layers. Each of these computational blocks is crucial for a subset of the tasks we train on. Interestingly, even if a block is not crucial for a task, we observe that adding it never hurts performance and in most cases improves it on all tasks. We also show that tasks with less data benefit largely from joint training with other tasks, while performance on large tasks degrades only slightly if at all.
研究动机与目标
- 激励创建一个能够在多个领域处理任务且不需要任务特定架构的统一深度学习模型。
- 提出将模态特定网络与共享主体结合、并使用多样化计算块的 MultiModel 架构。
- 展示在八个语料库上的学习,并分析共享块在任务与数据规模上的迁移效果。
- 研究联合训练与单任务训练的影响,以及注意力和专家混合块的必要性。
提出的方法
- 引入模态网,将来自不同模态的输入映射到共享表示空间。
- 使用包含卷积、注意力和稀疏门控专家混合块的主体来处理并生成输出。
- 采用自回归、全卷积的编码器–m mixer–解码器框架,类似 ByteNet/WaveNet,但具备跨域块。
- 在八个语料库上联合训练模型:WSJ 语音、ImageNet、COCO 标注、WSJ 解析,以及 WMT EN-DE、DE-EN、EN-FR、FR-DE 翻译。
- 在每种模态内跨任务共享参数,以促进泛化并实现新任务的即时添加。
实验结果
研究问题
- RQ1在八个多样任务上训练的单一模型在各个任务上达到的最先进结果有多接近?
- RQ2在相似计算量下,八任务联合训练与逐任务单独训练相比有何差异?
- RQ3哪些计算块(注意力、专家混合)对不同任务的性能有贡献?
- RQ4在联合训练时,似乎不相关的领域之间是否会发生跨任务迁移(例如 ImageNet 与解析)?
主要发现
| Problem | MultiModel (joint 8-problem) | State of the art |
|---|---|---|
| ImageNet (top-5 accuracy) | 86% | 95% |
| WMT EN → DE (BLEU) | 21.2 | 26.0 |
| WMT EN → FR (BLEU) | 30.5 | 40.5 |
- Eight 任务的 MultiModel 实现了具有竞争力的结果,但尚未达到最先进水平(ImageNet top-5 86%,WMT EN→DE 21.2 BLEU,WMT EN→FR 30.5 BLEU)。
- 八任务联合训练在大任务上与单任务训练表现相近,在数据稀缺的任务如解析上甚至可能优于单任务。
- 包含专家混合与注意力块通常有助于各任务的性能,至少不会降低性能;移除任一者会降低或轻微影响性能。
- 观察到跨域迁移;将解析与 ImageNet 一起训练或与八任务一起训练,相比仅在解析上训练有改进。
- 任务受益于共享的模态网和统一表示,能够实现新任务的随时添加以及从数据丰富任务向数据稀缺任务的正向迁移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。