[論文レビュー] Data Science: Challenges and Directions
本論文はデータサイエンスを複雑で学際的な分野として概観し、X-complexitiesとX-intelligence、非IIDデータの課題、そして人間に似た機械知能への方向性を概説する。データを知識と実行可能な洞察へ変換するための体系的で超分野横断的なアプローチを主張する。
While data science has emerged as a contentious new scientific field, enormous debates and discussions have been made on it why we need data science and what makes it as a science. In reviewing hundreds of pieces of literature which include data science in their titles, we find that the majority of the discussions essentially concern statistics, data mining, machine learning, big data, or broadly data analytics, and only a limited number of new data-driven challenges and directions have been explored. In this paper, we explore the intrinsic challenges and directions inspired by comprehensively exploring the complexities and intelligence embedded in data science problems. We focus on the research and innovation challenges inspired by the nature of data science problems as complex systems, and the methodologies for handling such systems.
研究の動機と目的
- データ、行動、ドメイン、社会、環境、学習、成果物にわたる埋め込まれたX-複雑性を含む複雑系としてデータサイエンスを特徴づける。
- ビッグデータの複雑性と仮定の違反を扱う際の現在の理論と手法の限界を特定する。
- X-知性とデータから意思決定への変換の枠組みを提案し、学問分野の発展を導く。
- 非-IIDデータ学習を主要な研究課題として強調し、理論と実務への示唆を探る。
- データサイエンスにおける人間に似た機械知能の展望と、それが問題解決に与える潜在的な影響について論じる。
提案手法
- データサイエンスの問題に内在する複雑性と知性を特定するための総合的な文献レビュー。
- 複数の側面にまたがるX-複雑性とX-知性を持つ複雑系としてデータサイエンスを概念的に位置付ける。
- 既知から未知のCKI(知識、知性)状態へと知識から提供への進行を提案し、問題空間(Spaces A-D)をマッピングする。
- データ入力、データ駆動発見、データ出力の3層からなる構造化されたランドスケープを導入し、理解、基礎、工学、社会的課題、価値の5つの研究課題を横断的に設定する。
- 仮定の違反(特に非IIDデータ)と、それらが理論、指標、学習にもたらす影響について論じる。
実験結果
リサーチクエスチョン
- RQ1データサイエンスを統計学、情報科学、計算機科学、社会科学を統合する超学際的分野として規定する要素は何か?
- RQ2データサイエンスの問題に埋め込まれたコアのX-複雑性とX-知性とは何か、そしてそれらは問題解決にどう影響するか?
- RQ3仮定の違反、特に非IIDデータは、データサイエンスの現在の理論と手法にどのような課題をもたらすか?
- RQ4データサイエンスを学問として前進させる戦略的な方向性(データサイエンスのランドスケープ、非IID学習、人間に似た知性)とは何か?
- RQ5データから意思決定への変換と行動を、分析を意思決定アクションへ効果的に変換するよう設計するにはどうすればよいか?
主な発見
- ビッグデータの問題は、データ、行動、ドメイン、社会、環境、学習、成果物にまたがる埋め込まれたX-複雑性を含む複雑系である。
- 非IIDデータ学習と新しい理論、アルゴリズム、指標の必要性は、IIDベースの手法を超えてデータサイエンスを前進させる中心である。
- データ入力、データ駆動発見、データ出力の3層からなるデータサイエンスのランドスケープは、理解、基礎、工学、社会問題、価値にわたる幾つかの挑戦的な研究領域を含む。
- 好奇心とより広い認知プロセスによって推進される人間に似た機械知能は、データサイエンスにおける機械思考を変革し得る。
- ビッグデータにおける仮定の違反は、信頼できる実行可能な洞察を保証するために、数学的基礎、モデリング、評価、ガバナンスを再考することを要求する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。