[論文レビュー] Examining the relationship between student performance and video interactions
本研究では、フラップド物理学コースにおける複雑な実験評価の成績を予測できるかどうかを検討する。具体的には、一連のクリックストリームデータ(一時停止、シーク、視聴時間など)によって測定される学生の指導動画との相互作用が、その成績に予測可能性を示すかを調査している。ロジスティック回帰および他のモデルを用いて分析した結果、動画との相互作用パターンと実験成績との間に有意な予測関係は認められず、学生が動画にどう関わるかは、高次水準のタスクで成功する能力を反映していない可能性があると示唆している。
In this work, we attempted to predict student performance on a suite of laboratory assessments using students' interactions with associated instructional videos. The students' performance is measured by a graded presentation for each of four laboratory presentations in an introductory mechanics course. Each lab assessment was associated with between one and three videos of instructional content. Using video clickstream data, we define summary features (number of pauses, seeks) and contextual information (fraction of time played, in-semester order). These features serve as inputs to a logistic regression (LR) model that aims to predict student performance on the laboratory assessments. Our findings show that LR models are unable to predict student performance. Adding contextual information did not change the model performance. We compare our findings to findings from other studies and explore caveats to the null-result such as representation of the features, the possibility of underfitting, and the complexity of the assessment.
研究の動機と目的
- フラップド入門力学コースにおける複雑な実験評価の成績を予測できるか、学生の動画相互作用特徴を特定すること。
- 学期中のタイミングや学生の背景といった文脈的要因が、動画相互作用データの予測力に影響を与えるかどうかを評価すること。
- 動画相互作用と実験成績の間に予測関係がない理由を説明する可能性のある方法論的限界を探索すること。
- ロジスティック回帰と比較して、代替モデル(例:ランダムフォレスト、SVM)が動画参加メトリクスから実験成績を予測する際に優れた性能を示すかどうかを評価すること。
提案手法
- 161名の学生が、1学期間にわたる物理学コースでCourseraプラットフォーム上で78本の指導動画と相互作用したクリックストリームデータを収集した。
- 1本の動画相互作用あたり8つの要約特徴(例:正規化視聴時間、一時停止回数、シーク回数、再生回数、および標準化された相互作用時間)に加え、実験の順序やFMCE事前テスト得点といった文脈的特徴を抽出した。
- 627件の実験-動画ペアに対して特徴ベクトルを構築し、成績が中央値で分割された「高得点」または「低得点」のラベルを付与した。
- これらの特徴を用いてロジスティック回帰モデルを訓練し、高得点対低得点の実験成績を予測した。文脈的変数を組み込んだ追加のモデルも検討した。
- モデルの性能をコルモゴロフ=スミルノフ(KS)統計量を用いて評価し、ランダムな予測と比較した。
- ロバストネスを検証するため、代替モデル(ランダムフォレスト、SVM)をテストし、特徴量スケーリングやモデルの複雑さへの感受性を評価した。
実験結果
リサーチクエスチョン
- RQ1フラップド物理学コースにおける学生の動画相互作用特徴は、実験評価の成績を予測できるか?
- RQ2実験の順序や事前テスト得点といった文脈的情報を追加することで、動画相互作用特徴の予測力が向上するか?
- RQ3帰無仮説の結果は、モデルの不足適合、特徴表現、または二値分類アプローチに起因しているのか?
- RQ4より複雑なモデル(例:ランダムフォレスト、SVM)は、ロジスティック回帰を上回って、動画参加から実験成績を予測できるか?
主な発見
- ロジスティック回帰モデルは、実験評価の成績を有意に予測できず、KS統計量が0.125未満、p > 0.28であった。これは、ランダムな予測と同等の性能であることを示している。
- 実験の順序やFMCE事前テスト得点といった文脈的特徴を追加しても、モデルの性能は向上しなかった。これは、これらの変数が予測能力を高めなかったことを示している。
- ランダムフォレストおよびSVMモデルについても、KS統計量が0.125未満に留まり、モデル選択の影響や信号の欠如にかかわらず、分類性能が有意に向上しなかった。
- 本研究では、一時停止、シーク、視聴時間といった動画相互作用のパターンが、遅延して実施される複雑な実験評価での成功と相関しないという証拠が得られなかった。
- 研究者らは、動画参加メトリクスが、複雑で探究型のタスクにおける学習成果の代替指標として信頼できるとは限らないと結論づけている。
- 結果から、教育設計者はフラップドクラスルームにおける動画の役割を再考する必要があり、高次水準のタスクの成績予測には、教室内での関与を重視すべきであると示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。