Skip to main content
QUICK REVIEW

[논문 리뷰] Evaluation-as-a-Service: Overview and Outlook

Allan Hanbury, Henning Müller|arXiv (Cornell University)|2015. 12. 23.
Machine Learning and Data Classification참고 문헌 41인용 수 24
한 줄 요약

이 논문은 평가의 서비스화(Evaluation-as-a-Service, EaaS)를 도입하며, 기존의 데이터 배포 모델에서 중앙집중화된 API 또는 가상머신(VM) 기반 평가 인프라로의 패러다임 전환을 제안한다. 이는 재현 가능성 향상, 민감한 데이터의 안전한 처리, 실시간 또는 대규모 데이터 과제 지원에 기여한다. 주요 기여는 기존 EaaS 이니셔티브들의 종합적 분석, 그 이점, 그리고 데이터 과학 및 정보 검색 분야에서 지속 가능하고 협업 기반의 연구 인프라의 비전 제시이다.

ABSTRACT

Evaluation in empirical computer science is essential to show progress and assess technologies developed. Several research domains such as information retrieval have long relied on systematic evaluation to measure progress: here, the Cranfield paradigm of creating shared test collections, defining search tasks, and collecting ground truth for these tasks has persisted up until now. In recent years, however, several new challenges have emerged that do not fit this paradigm very well: extremely large data sets, confidential data sets as found in the medical domain, and rapidly changing data sets as often encountered in industry. Also, crowdsourcing has changed the way that industry approaches problem-solving with companies now organizing challenges and handing out monetary awards to incentivize people to work on their challenges, particularly in the field of machine learning. This white paper is based on discussions at a workshop on Evaluation-as-a-Service (EaaS). EaaS is the paradigm of not providing data sets to participants and have them work on the data locally, but keeping the data central and allowing access via Application Programming Interfaces (API), Virtual Machines (VM) or other possibilities to ship executables. The objective of this white paper are to summarize and compare the current approaches and consolidate the experiences of these approaches to outline the next steps of EaaS, particularly towards sustainable research infrastructures. This white paper summarizes several existing approaches to EaaS and analyzes their usage scenarios and also the advantages and disadvantages. The many factors influencing EaaS are overviewed, and the environment in terms of motivations for the various stakeholders, from funding agencies to challenge organizers, researchers and participants, to industry interested in supplying real-world problems for which they require solutions.

연구 동기 및 목표

  • 기존 공동 과제 평가의 한계, 즉 데이터 배포 리스크, 재현성 부족, 기밀 또는 빠르게 변화하는 데이터의 과제를 해결하기 위해.
  • 연구의 재현성 위기를 극복하기 위해 중앙집중화된, 버전 관리된 데이터와 코드를 통해 인용 가능하고 실행 가능한 평가를 가능하게 하여.
  • EaaS를 공공-민간 파트너십에 통합함으로써 지속 가능한 연구 인프라를 구축하고, 개방형 혁신과 인재 발굴을 촉진하기 위해.
  • 연구자, 산업계, 자금 지원 기관 간 협업을 촉진하기 위해 공통의 플랫폼을 제공하여 공유된 안전한 데이터 기반 알고리즘 평가 및 비교를 가능하게 하기 위해.
  • 지속적인 평가, 구성 요소 수준의 벤치마킹, 새로운 데이터 기반 자동 기준 설정을 가능하게 하여 과학적 진전을 가속화하기 위해.

제안 방법

  • 시험 데이터가 중앙에서 유지되는 '알고리즘-데이터' 패러다임을 채택하여 참가자는 오직 알고리즘 또는 실행 가능 파일만 제출하고, 원격에서 실행되도록 하기 위해.
  • 응용 프로그래밍 인터페이스(API), 가상머신(VM), 또는 컨테이너 기반 환경을 활용하여 참가자 코드를 중앙 인프라에서 안전하게 격리하고 실행하기 위해.
  • 제출, 실행, 평가 워크플로우를 처리하기 위해 TIRA, CodaLab, OpenML, VISCERAL 등록 시스템과 같은 EaaS 관리 시스템을 구현하기 위해.
  • 직접 데이터 접근을 제한하고 참가자가 개방형 소스 코드 공유를 포함한 광범위한 사용 조건에 동의하도록 함으로써 데이터 기밀성과 규정 준수를 확보하기 위해.
  • 클라우드 및 과학 컴퓨팅 인프라와 통합하여 정적 배포에 적합하지 않은 대규모, 실시간, 또는 변화하는 데이터 세트를 지원하기 위해.
  • 장기적 지속 가능성을 보장하기 위해 참여 합의서, 법적 프레임워크, 공공-민간 자금 지원을 통한 거버넌스 및 지속 가능성 모델 수립하기 위해.

실험 결과

연구 질문

  • RQ1평가의 서비스화(EaaS)는 데이터 과학 및 정보 검색 분야에서 실증 연구의 재현성과 신뢰도를 어떻게 향상시킬 수 있는가?
  • RQ2민감하거나 동적 데이터를 위한 지속 가능한 EaaS 인프라를 구축할 때 기술적, 조직적, 법적 과제는 무엇인가?
  • RQ3EaaS는 산업계 및 연구 기관의 개방형 혁신과 인재 발굴을 어떻게 지원할 수 있는가?
  • RQ4기존의 EaaS 이니셔티브들은 확장성, 사용성, 구성 요소 수준 평가 지원 측면에서 어떻게 비교될 수 있는가?
  • RQ5EaaS 플랫폼의 장기적 지속 가능성을 보장하기 위해 가장 효과적인 거버넌스 및 자금 지원 모델은 무엇인가?

주요 결과

  • EaaS는 데이터와 실행 가능한 도구를 모두 중앙집중화함으로써 재현 가능한 연구를 가능하게 하며, 연구 결과를 인용하고 재실행하며 다양한 연구 간 비교가 가능해진다.
  • EaaS 모델은 직접 데이터 접근을 방지하고 알고리즘만 제출하도록 하므로, 의료 분야와 같이 기밀성이 중요한 데이터의 안전한 평가를 지원한다.
  • TREC 마이크로블로그, BioASQ, CLEF 라이빙 랩스, CodaLab 등 기존의 EaaS 이니셔티브들은 실생활에서 성공적으로 구현되었으며 혁신과 협업에 측정 가능한 영향을 미쳤다.
  • TIRA 및 OpenML과 같은 EaaS 플랫폼은 자동화되고 확장 가능한 평가 워크플로우를 가능하게 하여 수동 작업을 줄이고 제출 간 일관성을 높였다.
  • 데이터-알고리즘에서 알고리즘-데이터 패러다임으로의 전환은 구성 요소 수준의 평가를 강화하고, 고립된 대회를 넘어서 지속적인 벤치마킹을 가능하게 한다.
  • 공공-민간 파트너십을 통해 지속 가능성이 달성될 수 있으며, 이는 개방형 혁신과 머신러닝 및 데이터 과학 분야의 최고 수준의 인재 접근으로부터 투자 수익을 얻을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.