QUICK REVIEW

[论文解读] GluonCV and GluonNLP: Deep Learning in Computer Vision and Natural Language Processing

Jian Guo, He He|arXiv (Cornell University)|Jul 9, 2019

Multimodal Machine Learning Applications参考文献 18被引用 90

一句话总结

GluonCV 和 GluonNLP 是基于 MXNet 的工具包，提供模块化构建块、预训练模型和模型集，用于计算机视觉和自然语言处理的快速原型设计，并支持跨语言部署。

ABSTRACT

We present GluonCV and GluonNLP, the deep learning toolkits for computer vision and natural language processing based on Apache MXNet (incubating). These toolkits provide state-of-the-art pre-trained models, training scripts, and training logs, to facilitate rapid prototyping and promote reproducible research. We also provide modular APIs with flexible building blocks to enable efficient customization. Leveraging the MXNet ecosystem, the deep learning models in GluonCV and GluonNLP can be deployed onto a variety of platforms with different programming languages. The Apache 2.0 license has been adopted by GluonCV and GluonNLP to allow for software distribution, modification, and usage.

研究动机与目标

提供可重复使用的模块化 API，以在 CV 和 NLP 模型之间复用构建块。
提供预训练的最先进模型、训练脚本和训练日志，以实现快速原型设计和可重复性。
利用 MXNet 生态系统实现跨多语言和平台的部署。
在 Apache 2.0 许可下推动开源开发，并培养活跃的社区。

提出的方法

用可重用组件（如数据工具、模型、初始化器和损失函数）解释模块化 API 的设计。
描述通过 bucketed batching 和 padding 工具创建高效小批量数据流的数据管道构建。
维护一个涵盖 CV 和 NLP 任务的数百个预训练模型的模型集。
展示与其他开源框架在标准基准上的性能对比。
强调通过 MXNet 的绑定实现跨 CPU、GPU 和多语言的部署灵活性。

实验结果

研究问题

RQ1GluonCV/NLP 的模块化 API 如何在 CV 和 NLP 任务中实现高效的原型设计和定制？
RQ2与其他开源实现相比，GluonCV/NLP 模型在标准基准上取得了哪些性能提升？
RQ3通过 MXNet 的跨语言部署如何影响 CV/NLP 模型的可用性和可移植性？

主要发现

Task	Data set	Model	Measure	GluonCV/NLP	OOSI
图像分类	ImageNet	ResNet-50	top-1 准确率	79.2	75.3
图像分类	ImageNet	ResNet-101	top-1 准确率	80.5	76.4
图像分类	ImageNet	MobileNet 1.0	top-1 准确率	73.3	70.9
目标检测	COCO	Faster R-CNN	mAP	40.1	39.6
实例分割	COCO	Mask R-CNN	mask AP	33.1	32.8
姿态估计	COCO	Simple Pose (f)	OKS AP	74.2	N.A.
行动识别	Kinetics400	I3D ResNet-50	top-1 准确率	74.0	72.9
情感分析	TREC	textCNN	acc.	92.8	92.2
情感分析	SST-2	BERT_BASE	acc.	93.0	92.7
问答	SQuAD 1.1	BERT_BASE	F1/EM	88.5/81.0	88.5/80.8
问答	SQuAD 1.1	BERT_LARGE	F1/EM	91.0/84.1	90.9/84.1
自然语言推理	MNLI-m	BERT_BASE	acc.	84.6	84.4
改写	MRPC	BERT_BASE	acc.	88.7	86.7

GluonCV/NLP 在 CV 和 NLP 的主要基准测试上与其他开源实现的性能相当或超过。
在 ImageNet 的 ResNet-50 上，GluonCV/NLP 的 top-1 精度显著高于引用基线，达到 79.2%。
模型集提供了超过 200 个可直接使用的模型，覆盖多种任务。
通过 MXNet 的多语言绑定和高效的底层算子，实际部署带来明显收益。
Int8 推断示例显示了对如 BERT_BASE 等模型的明显延迟下降。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。