Skip to main content
QUICK REVIEW

[论文解读] Lingvo: a Modular and Scalable Framework for Sequence-to-Sequence Modeling

Jonathan Shen, Patrick Nguyen|arXiv (Cornell University)|Feb 21, 2019
Algorithms and Data Compression参考文献 3被引用 183
一句话总结

Lingvo 是一个 TensorFlow 框架,具有用于序列到序列建模的模块化构建块,特征集中化的实验配置、分布式训练,以及可用于生产的组件,如推理和量化。

ABSTRACT

Lingvo is a Tensorflow framework offering a complete solution for collaborative deep learning research, with a particular focus towards sequence-to-sequence models. Lingvo models are composed of modular building blocks that are flexible and easily extensible, and experiment configurations are centralized and highly customizable. Distributed training and quantized inference are supported directly within the framework, and it contains existing implementations of a large number of utilities, helper functions, and the newest research ideas. Lingvo has been used in collaboration by dozens of researchers in more than 20 papers over the last two years. This document outlines the underlying design of Lingvo and serves as an introduction to the various pieces of the framework, while also offering examples of advanced features that showcase the capabilities of the framework.

研究动机与目标

  • 提供一个模块化、可扩展的框架,用于快速原型设计序列到序列模型。
  • 通过集中化超参数配置和注册驱动的模型设置,实现可重复、可比的实验。
  • 支持可扩展的分布式训练和部署,包括推理和量化。
  • 促进多任务建模和跨任务的常用构建块的重用。

提出的方法

  • 引入模块化构建块(Layers、Inputs、Params),具有统一接口以便于组合。
  • 使用分层 Params 系统来配置层、任务和模型,具有显式默认值,由实验配置覆盖。
  • 提供模型注册表和装饰器,以注册单任务和多任务模型,便于实例化。
  • 支持分布式训练(同步和异步)以及多个作业运行器和参数服务器风格的设置。
  • 提供输入处理管道,具备分桶批处理,并支持多种分词器和数据格式。
  • 融入推理和量化特性,以实现生产部署和效率。

实验结果

研究问题

  • RQ1模块化、可重用的一组构建块如何加速序列到序列模型的开发和实验?
  • RQ2统一的 Params 驱动配置和模型注册表是否能提升跨研究者和任务的可重复性与可比性?
  • RQ3在这样的框架内,分布式训练和多任务学习的实际考虑因素及机制有哪些?
  • RQ4如何在用于训练的同一代码库中集成推理和量化,以简化部署?

主要发现

  • Lingvo 提供一个一致的设计,具有模块化层、输入处理器和支持分层配置及易于覆盖的 Params 系统。
  • 由于显式的超参数声明、集中化配置和运行时日志记录,实验可以更容易地重复和比较。
  • 该框架支持在多个作业运行器和设备上的异步和同步分布式训练。
  • Lingvo 包含对多任务模型的支持,具有共享变量和可配置的任务权重。
  • 推理和量化已集成,能够在同一框架内导出推理图和设备特定实现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。