Skip to main content
QUICK REVIEW

[논문 리뷰] Data Science: Challenges and Directions

Longbing Cao|arXiv (Cornell University)|2020. 06. 28.
Time Series Analysis and Forecasting참고 문헌 23인용 수 81
한 줄 요약

본 논문은 데이터 과학을 복합적이고 학제간 분야로 고찰하며 X-복잡성 및 X-지능, 비-IID 데이터의 도전과제, 그리고 인간 유사 기계 지능으로의 방향을 개괄한다. 데이터에서 지식과 실행 가능한 통찰로 변환하기 위한 체계적이고 교차학문적 접근의 필요성을 주장한다.

ABSTRACT

While data science has emerged as a contentious new scientific field, enormous debates and discussions have been made on it why we need data science and what makes it as a science. In reviewing hundreds of pieces of literature which include data science in their titles, we find that the majority of the discussions essentially concern statistics, data mining, machine learning, big data, or broadly data analytics, and only a limited number of new data-driven challenges and directions have been explored. In this paper, we explore the intrinsic challenges and directions inspired by comprehensively exploring the complexities and intelligence embedded in data science problems. We focus on the research and innovation challenges inspired by the nature of data science problems as complex systems, and the methodologies for handling such systems.

연구 동기 및 목표

  • 데이터, 행동, 도메인, 사회, 환경, 학습, 산출물 전반에 걸친 X-복잡성을 포함하는 복합 시스템으로서의 데이터 과학 특성화.
  • 대용량 데이터의 복잡성과 가정 위반을 다루는 현재 이론과 방법의 한계를 식별한다.
  • 학문 발전을 이끌기 위한 X-지능 및 데이터-에서 의사결정으로의 전환 프레임워크를 제안한다.
  • 비-IID 데이터 학습을 핵심 연구 과제로 강조하고 이의 이론과 실무에 대한 시사점을 탐구한다.
  • 데이터 과학 내에서의 인간 유사 기계 지능 전망과 그것이 문제 해결에 미칠 잠재적 영향에 대해 논의한다.

제안 방법

  • 데이터 과학 문제에서 내재된 복잡성과 지능을 식별하기 위한 포괄적 문헌 검토.
  • 다양한 측면에서 X-복잡성과 X-지능을 가진 데이터 과학을 복합 시스템으로 개념적으로 구성.
  • 알려진 CKI(지식, 지능) 상태에서 알려지지 않은 상태로의 지식-전달 진행을 제시하고 문제 공간(공간 A-D)을 매핑한다.
  • 데이터 입력, 데이터 주도 발견, 데이터 산출의 세 계층으로 구성된 구조화된 구도를 도입하고 이해, 기초, 공학, 사회 이슈, 가치의 다섯 가지 연구 과제를 제시한다.
  • 가정 위반(특히 비-IID 데이터)에 대해 논의하고 이들의 이론, 측정 지표, 학습에 대한 함의를 논의한다.

실험 결과

연구 질문

  • RQ1통계학, 정보학, 컴퓨팅, 사회과학을 통합하는 초학제적 분야로서의 데이터 과학은 무엇으로 구성되는가?
  • RQ2데이터 과학 문제에 내재된 핵심 X-복잡성과 X-지능은 무엇이며, 이것들이 문제 해결에 어떻게 영향을 미치는가?
  • RQ3특히 비-IID 데이터와 같은 가정 위반이 데이터 과학의 현재 이론과 방법에 어떻게 도전하는가?
  • RQ4데이터 과학의 풍경, 비-IID에 대한 학습, 인간 유사 지능을 포함하는 전략적 방향은 데이터 과학을 학문으로서 발전시킬 수 있는가?
  • RQ5데이터-에서 의사결정 및 행동으로의 과정이 분석을 효과적으로 의사결정 행동으로 전환하도록 어떻게 설계될 수 있는가?

주요 결과

  • 빅 데이터 문제는 데이터, 행동, 도메인, 사회, 환경, 학습, 산출물에 걸친 X-복잡성이 내재된 복합 시스템이다.
  • 비-IID 데이터 학습과 새로운 이론, 알고리즘, 지표의 필요성은 IID 기반 방법을 넘어 데이터 과학을 발전시키는 데 핵심이다.
  • 데이터 입력, 데이터 주도 발견, 데이터 산출의 세 계층으로 구성된 데이터 과학 구도는 이해, 기초, 공학, 사회 이슈, 가치에 걸친 여러 도전적 연구 영역을 담고 있다.
  • 호기심과 더 넓은 인지 과정에 의해 주도되는 인간 유사 기계 지능은 데이터 과학 내의 기계 사고를 변화시킬 수 있다.
  • 빅 데이터의 가정 위반은 신뢰할 수 있고 실행 가능한 통찰을 보장하기 위해 수학적 기초, 모델링, 평가, 거버넌스를 재고하도록 요구한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.