Skip to main content
QUICK REVIEW

[論文レビュー] GluonCV and GluonNLP: Deep Learning in Computer Vision and Natural Language Processing

Jian Guo, He He|arXiv (Cornell University)|Jul 9, 2019
Multimodal Machine Learning Applications参考文献 18被引用数 90
ひとこと要約

GluonCVとGluonNLPはMXNetベースのツールキットで、モジュール化されたビルディングブロック、事前学習モデル、モデル zoo を提供し、コンピュータビジョンと自然言語処理の迅速なプロトタイピングとクロス言語展開を実現します。

ABSTRACT

We present GluonCV and GluonNLP, the deep learning toolkits for computer vision and natural language processing based on Apache MXNet (incubating). These toolkits provide state-of-the-art pre-trained models, training scripts, and training logs, to facilitate rapid prototyping and promote reproducible research. We also provide modular APIs with flexible building blocks to enable efficient customization. Leveraging the MXNet ecosystem, the deep learning models in GluonCV and GluonNLP can be deployed onto a variety of platforms with different programming languages. The Apache 2.0 license has been adopted by GluonCV and GluonNLP to allow for software distribution, modification, and usage.

研究の動機と目的

  • CVとNLPモデル全体でビルディングブロックを再利用するためのモジュール型APIを提供する。
  • 迅速なプロトタイピングと再現性のために、事前学習済みの最先端モデル、トレーニングスクリプト、トレーニングログを提供する。
  • MXNetエコシステムを活用して、複数の言語とプラットフォームへのデプロイを可能にする。
  • Apache 2.0ライセンスの下でオープンソース開発を促進し、活発なコミュニティを育成する。

提案手法

  • データユーティリティ、モデル、初期化子、損失など、再利用可能なコンポーネントを含むモジュラーAPI設計を説明する。
  • 効率的なミニバッチを作成するために、バケツ化バッチとパディングユーティリティを用いたデータパイプライン構築を説明する。
  • CVとNLPタスク全体で数百の事前学習モデルを備えたモデル zoo を維持する。
  • 標準ベンチマークで他のオープンソースフレームワークと比較したパフォーマンスを示す。
  • MXNetバインディングを介したCPU、GPU、および複数言語でのデプロイの柔軟性を強調する。

実験結果

リサーチクエスチョン

  • RQ1GluonCV/NLPのモジュラーAPIは、CVとNLPタスク全体での効率的なプロトタイピングとカスタマイズをどのように実現するか?
  • RQ2標準ベンチマークで、GluonCV/NLPモデルは他のオープンソース実装と比較してどの程度の性能向上を達成するか?
  • RQ3MXNetを介したクロス言語デプロイは、CV/NLPモデルの使いやすさとポータビリティにどのような影響を与えるか?

主な発見

タスクデータセットモデル指標GluonCV/NLPOOSI
Image ClassificationImageNetResNet-50top-1 acc.79.275.3
Image ClassificationImageNetResNet-101top-1 acc.80.576.4
Image ClassificationImageNetMobileNet 1.0top-1 acc.73.370.9
Object DetectionCOCOFaster R-CNNmAP40.139.6
Instance SegmentationCOCOMask R-CNNmask AP33.132.8
Pose EstimationCOCOSimple Pose (f)OKS AP74.2N.A.
Action RecognitionKinetics400I3D ResNet-50top-1 acc.74.072.9
Sentiment AnalysisTRECtextCNNacc.92.892.2
Sentiment AnalysisSST-2BERT_BASEacc.93.092.7
Question AnsweringSQuAD 1.1BERT_BASEF1/EM88.5/81.088.5/80.8
Question AnsweringSQuAD 1.1BERT_LARGEF1/EM91.0/84.190.9/84.1
Natural Language InferenceMNLI-mBERT_BASEacc.84.684.4
ParaphrasingMRPCBERT_BASEacc.88.786.7
  • GluonCV/NLPは、CVおよびNLPタスクの主要ベンチマークで他のオープンソース実装と同等またはそれ以上の性能を示す。
  • ImageNetのResNet-50で、GluonCV/NLPは引用されたベースラインより著しく高いtop-1精度(79.2%)を示す。
  • モデル zoo は多様なタスクに対して200を超える使用可能なモデルを提供する。
  • MXNetの多言語バインディングと効率的な低レベル演算子による実用的なデプロイメントの利点を示す証拠。
  • Int8推論の例は、BERT_BASEのようなモデルで大幅なレイテンシ削減を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。