Skip to main content
QUICK REVIEW

[论文解读] SCB-Dataset3: A Benchmark for Detecting Student Classroom Behavior

Fan Yang, Tao Wang|arXiv (Cornell University)|Oct 4, 2023
Communication in Education and Healthcare被引用 11
一句话总结

本文介绍 SCB-Dataset3,一个公开数据集,包含 5686 张图像和 45578 个注释,覆盖六种学生行为,并对 YOLOv5/7/8 检测器进行了基准测试,达到最高 80.3% mAP@50。

ABSTRACT

The use of deep learning methods to automatically detect students' classroom behavior is a promising approach for analyzing their class performance and improving teaching effectiveness. However, the lack of publicly available datasets on student behavior poses a challenge for researchers in this field. To address this issue, we propose the Student Classroom Behavior dataset (SCB-dataset3), which represents real-life scenarios. Our dataset comprises 5686 images with 45578 labels, focusing on six behaviors: hand-raising, reading, writing, using a phone, bowing the head, and leaning over the table. We evaluated the dataset using the YOLOv5, YOLOv7, and YOLOv8 algorithms, achieving a mean average precision (map) of up to 80.3$\%$. We believe that our dataset can serve as a robust foundation for future research in student behavior detection and contribute to advancements in this field. Our SCB-dataset3 is available for download at: https://github.com/Whiffe/SCB-dataset

研究动机与目标

  • 解决缺乏用于学生课堂行为检测的公开数据集的问题。
  • 将行为类别从 3 个扩展到 6 个,并在 SCB-Dataset3 中加入高校场景。
  • 提供在 SCB-Dataset3-S 和 SCB-Dataset3-U 上使用 YOLOv5、YOLOv7、YOLOv8 的基准评估。

提出的方法

  • 开发 SCB-Dataset3,涵盖六种行为:举手、阅读、写作、使用手机、低头、趴在桌面上,共 5686 张图像和 45578 个注释。
  • 应用帧插值和迭代式训练来丰富 SCB-Dataset3-U 的高校教室数据。
  • 使用 YOLOv5、YOLOv7、YOLOv8 在 mAP@50 和 mAP@50:95 指标下对检测器进行评估。
  • 引入行为相似度指数(BSI)以量化行为之间的重叠度。
  • 分析重叠边界框以及阅读/写作行为之间相似性等挑战。

实验结果

研究问题

  • RQ1SCB-Dataset3 在多种教育层面上的组成与难度如何?
  • RQ2最先进的目标检测器在 SCB-Dataset3-S 和 SCB-Dataset3-U 的六种课堂行为上的表现如何?
  • RQ3帧插值是否能提升高校教室数据的检测性能?
  • RQ4行为相似度指数(BSI)是什么,以及它揭示了分类器中行为的相似性?

主要发现

  • SCB-Dataset3 包含 5686 张图像和 45578 个注释,覆盖六种行为。
  • YOLOv7x 在 SCB-Dataset3-S 上的单模型性能最佳,mAP@50 为 80.3%。
  • YOLO 模型大小并非单调提升性能;在该数据集中,一些较小的变体在性能上优于较大的变体。
  • 在处理后,帧插值显著提升 SCB-Dataset3-U 的检测准确率。
  • BSI 显示举手与其他行为的相似度较低,而阅读和写作则显示出更高的相似性。
  • 各行为之间存在显著的类别不平衡,影响检测结果的逐类别性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。