[论文解读] GluonCV and GluonNLP: Deep Learning in Computer Vision and Natural Language Processing
GluonCV 和 GluonNLP 是基于 MXNet 的工具包,提供模块化构建块、预训练模型和模型集,用于计算机视觉和自然语言处理的快速原型设计,并支持跨语言部署。
We present GluonCV and GluonNLP, the deep learning toolkits for computer vision and natural language processing based on Apache MXNet (incubating). These toolkits provide state-of-the-art pre-trained models, training scripts, and training logs, to facilitate rapid prototyping and promote reproducible research. We also provide modular APIs with flexible building blocks to enable efficient customization. Leveraging the MXNet ecosystem, the deep learning models in GluonCV and GluonNLP can be deployed onto a variety of platforms with different programming languages. The Apache 2.0 license has been adopted by GluonCV and GluonNLP to allow for software distribution, modification, and usage.
研究动机与目标
- 提供可重复使用的模块化 API,以在 CV 和 NLP 模型之间复用构建块。
- 提供预训练的最先进模型、训练脚本和训练日志,以实现快速原型设计和可重复性。
- 利用 MXNet 生态系统实现跨多语言和平台的部署。
- 在 Apache 2.0 许可下推动开源开发,并培养活跃的社区。
提出的方法
- 用可重用组件(如数据工具、模型、初始化器和损失函数)解释模块化 API 的设计。
- 描述通过 bucketed batching 和 padding 工具创建高效小批量数据流的数据管道构建。
- 维护一个涵盖 CV 和 NLP 任务的数百个预训练模型的模型集。
- 展示与其他开源框架在标准基准上的性能对比。
- 强调通过 MXNet 的绑定实现跨 CPU、GPU 和多语言的部署灵活性。
实验结果
研究问题
- RQ1GluonCV/NLP 的模块化 API 如何在 CV 和 NLP 任务中实现高效的原型设计和定制?
- RQ2与其他开源实现相比,GluonCV/NLP 模型在标准基准上取得了哪些性能提升?
- RQ3通过 MXNet 的跨语言部署如何影响 CV/NLP 模型的可用性和可移植性?
主要发现
| Task | Data set | Model | Measure | GluonCV/NLP | OOSI |
|---|---|---|---|---|---|
| 图像分类 | ImageNet | ResNet-50 | top-1 准确率 | 79.2 | 75.3 |
| 图像分类 | ImageNet | ResNet-101 | top-1 准确率 | 80.5 | 76.4 |
| 图像分类 | ImageNet | MobileNet 1.0 | top-1 准确率 | 73.3 | 70.9 |
| 目标检测 | COCO | Faster R-CNN | mAP | 40.1 | 39.6 |
| 实例分割 | COCO | Mask R-CNN | mask AP | 33.1 | 32.8 |
| 姿态估计 | COCO | Simple Pose (f) | OKS AP | 74.2 | N.A. |
| 行动识别 | Kinetics400 | I3D ResNet-50 | top-1 准确率 | 74.0 | 72.9 |
| 情感分析 | TREC | textCNN | acc. | 92.8 | 92.2 |
| 情感分析 | SST-2 | BERT_BASE | acc. | 93.0 | 92.7 |
| 问答 | SQuAD 1.1 | BERT_BASE | F1/EM | 88.5/81.0 | 88.5/80.8 |
| 问答 | SQuAD 1.1 | BERT_LARGE | F1/EM | 91.0/84.1 | 90.9/84.1 |
| 自然语言推理 | MNLI-m | BERT_BASE | acc. | 84.6 | 84.4 |
| 改写 | MRPC | BERT_BASE | acc. | 88.7 | 86.7 |
- GluonCV/NLP 在 CV 和 NLP 的主要基准测试上与其他开源实现的性能相当或超过。
- 在 ImageNet 的 ResNet-50 上,GluonCV/NLP 的 top-1 精度显著高于引用基线,达到 79.2%。
- 模型集提供了超过 200 个可直接使用的模型,覆盖多种任务。
- 通过 MXNet 的多语言绑定和高效的底层算子,实际部署带来明显收益。
- Int8 推断示例显示了对如 BERT_BASE 等模型的明显延迟下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。