QUICK REVIEW

[論文レビュー] EvalAI: Towards Better Evaluation Systems for AI Agents

Deshraj Jain, Rishabh Jain|arXiv (Cornell University)|Feb 10, 2019

Machine Learning and Data Classification参考文献 21被引用数 44

ひとこと要約

EvalAI は、機械学習/AIモデルとエージェントのスケーラブルな評価と比較を可能にするオープンソースプラットフォームで、動的環境でのヒューマン・イン・ザ・ループ評価とリモート評価を、カスタマイズ可能なパイプラインとともに実現します。

ABSTRACT

We introduce EvalAI, an open source platform for evaluating and comparing machine learning (ML) and artificial intelligence algorithms (AI) at scale. EvalAI is built to provide a scalable solution to the research community to fulfill the critical need of evaluating machine learning models and agents acting in an environment against annotations or with a human-in-the-loop. This will help researchers, students, and data scientists to create, collaborate, and participate in AI challenges organized around the globe. By simplifying and standardizing the process of benchmarking these models, EvalAI seeks to lower the barrier to entry for participating in the global scientific effort to push the frontiers of machine learning and artificial intelligence, thereby increasing the rate of measurable progress in this domain.

研究の動機と目的

静的なデータセットや孤立したモデルを超えた堅牢な評価プラットフォームの必要性を動機づける。
人間を介した評価を含む現代のAI評価の望まれる要件と、環境駆動型ベンチマークを説明する。
EvalAI を、カスタムパイプライン、多段階、リモート評価に対応する拡張可能なオープンソースソリューションとして紹介する。
マルチモーダルおよび具現化型AIタスクにわたるケーススタディを通じて、EvalAI のアーキテクチャと機能を示す。

提案手法

任意の評価段階とデータセット分割をサポートする拡張可能な評価プラットフォームを提案する。
提出物と結果を管理するために、コンテナ化（Docker）と REST API を備えたWebバックエンド（Django）を使用する。
メッセージキュー（SQS）を介してWebサーバとワーカープールをデカップリングするリモート評価パイプラインを実装する。
リアルタイムでエージェントとAMT作業者をペアリングし、対話データを収集することでヒューマン-in-the-loop評価をサポートする。
動的環境での評価のために、主催者がモデルコードと成果物（Dockerイメージ、S3アセット）を提出できるようにする。

実験結果

リサーチクエスチョン

RQ1評価プラットフォームは、静的なタスクと環境ベースの動的タスクの両方を大規模にどのようにサポートできるか？
RQ2人間-in-the-loop およびリモート評価を備えた柔軟な、複数段階・複数分割のベンチマークを実現するために、どのようなアーキテクチャ上の選択肢が有効か？
RQ3マルチモーダルタスクと具現化型AIを含む現実世界の課題において、EvalAI はどのように機能するか？

主な発見

EvalAI はVQAチャレンジの評価を大幅に高速化し、従来の設定に比べて約12倍のスピードアップを達成した。
プラットフォームは複数のチャレンジ段階とデータ分割をサポートし、継続的な評価とプライバシー管理されたリーダーボードを実現する。
リモート評価により、主催者はプライベートクラスターで重い計算を実行しつつ、中央集権的なリーダーシップと提出物の処理を維持できる。
ヒューマン・イン・ザ・ループ評価は大規模でも実現可能で、リアルタイムの作業者とエージェントの対話を通じて視覚対話タスクで実証された。
ケーススタディは、VQA、Visual Dialog、Embodied Question Answering、fastMRI チャレンジにわたる実用性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。