QUICK REVIEW

[論文レビュー] Towards Feature Engineering at Scale for Data from Massive Open Online Courses

Kalyan Veeramachaneni, Una-May O’Reilly|arXiv (Cornell University)|Jul 20, 2014

Online Learning and Analytics参考文献 5被引用数 35

ひとこと要約

本論文は、MOOCデータの学習者離脱予測のための特徴工学に、クラウドソーシングを活用したスケーラブルなアプローチを提案する。人的知見を活用して、自己生成された特徴よりも優れた複雑でマルチモーダルな特徴を生成する。主な結果として、特に複数の相互作用モードを統合した関係的・縦断的特徴が、異なる学習者参加層において予測性能を顕著に向上させた。

ABSTRACT

We examine the process of engineering features for developing models that improve our understanding of learners' online behavior in MOOCs. Because feature engineering relies so heavily on human insight, we argue that extra effort should be made to engage the crowd for feature proposals and even their operationalization. We show two approaches where we have started to engage the crowd. We also show how features can be evaluated for their relevance in predictive accuracy. When we examined crowd-sourced features in the context of predicting stopout, not only were they nuanced, but they also considered more than one interaction mode between the learner and platform and how the learner was relatively performing. We were able to identify different influential features for stop out prediction that depended on whether a learner was in 1 of 4 cohorts defined by their level of engagement with the course discussion forum or wiki. This report is part of a compendium which considers different aspects of MOOC data science and stop out prediction.

研究の動機と目的

MOOCデータサイエンティスティックスにおける有効な特徴工学の課題に取り組むこと。人的知見は重要であるが、現状では未活用に近い。
研究者が単独で生成する特徴と比較して、クラウドソーシングによる特徴案が、より予測的かつ洗練された特徴を生み出せるかどうかを検討すること。
特に複雑で関係的、縦断的な特徴の種類が、学習者参加層ごとの離脱予測に与える影響を評価すること。
標準化されたデータスキーマを用いて、MOOCプラットフォーム間で再利用可能な特徴生成と共有のためのスケーラブルなフレームワークを構築すること。
相対的パフォーマンスやマルチモーダル相互作用（例：動画、フォーラム、提出物）を統合した特徴が、孤立した指標よりも予測力が高いことを実証すること。

提案手法

専門家、インストラクター、学生、研究者らから多様な人的知見に基づいた特徴アイデアを収集するため、ウェブベースのプラットフォームを用いて特徴案をクラウドソーシングすること。
異なるMOOCプラットフォーム（例：edX、Coursera）間で特徴生成スクリプトの再利用を可能にするために、標準化されたデータスキーマを設計すること。
動画の関与、フォーラム活動、課題提出、ピア相互作用の複数の相互作用モードのデータを統合して、複雑な関係的特徴を生成すること。
学習者の行動を時間経過にわたり追跡する縦断的特徴を生成し、相対的パフォーマンス指標（例：学習者が同級生と比較してどうか）を含めること。
教師あり機械学習を用いた離脱予測のための予測モデリングを通じて特徴の関連性を評価し、モデルの正確性と特徴の重要度を指標とする。
フォーラムやウィキへの参加状況に基づいて学習者を4つの参加層（例：受動的コラボレーター、フォーラム参加者）に分類し、層ごとの特徴の関連性とモデル性能を評価すること。

実験結果

リサーチクエスチョン

RQ1クラウドソーシングによる特徴案は、MOOCにおける自己生成特徴と比較して、学習者離脱予測のためのより予測的モデルを生み出せるか？
RQ2フォーラムおよびウィキ参加状況によって定義される異なる学習者参加層において、最も影響力のある特徴はどのように異なるか？
RQ3動画、提出物、共同行動を統合した複雑なマルチモーダル特徴は、単純な孤立指標と比較して、予測精度をどの程度向上させるか？
RQ4関係的特徴（例：同級生との相対的パフォーマンス）は、異なるタイプの学習者において離脱予測にどの程度寄与するか？
RQ5標準化された特徴生成スクリプトは、多様なMOOCプラットフォームやデータスキーマ間で再利用可能であるか？

主な発見

クラウドソーシングで得られた特徴は、全4つの参加層において、自己提案・自己抽出特徴よりも顕著に優れた離脱予測性能を示した。
異なる参加層では、最も予測的だった特徴のセットが異なった。例えば、受動的コラボレーターでは課題の成功確率と提出までの時間の遅れが重要であったが、協働的学習者では実験課題の成績傾向が重要であった。
フォーラムのみを利用した学習者では、投稿の長さが離脱予測の強力な予測要因であった。これは、コンテンツの深さが行動的サインとして機能することを示唆している。
最も影響力のある特徴は、複雑で導出されたものであり、複数の相互作用モード（例：動画、提出物、フォーラム）のデータを統合し、同級生との相対的比較を組み込んだものであった。
関係的および統計的要約特徴（例：相対的パフォーマンス、時間的傾向）は、単純なカウントや継続時間よりも一貫して予測力が高かった。
本研究は、標準化され再利用可能な特徴工学フレームワークの実現可能性と価値を実証した。スクリプトは既にedXやCourseraなどのプラットフォームでテスト済みである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。