Skip to main content
QUICK REVIEW

[論文レビュー] ALL-IN-ONE: Multi-Task Learning BERT models for Evaluating Peer Assessments

Qinjin Jia, Jialin Cui|arXiv (Cornell University)|Oct 8, 2021
Student Assessment and Feedback被引用数 27
ひとこと要約

論文は、3つの特徴(提案、問題、肯定的トーン)に跨るピアレビューコメントを自動評価するために、BERTおよびDistilBERTベースの単一タスクおよびマルチタスクモデルを開発し、BERTがGloVeを上回り、マルチタスク学習が性能を向上させ、モデルサイズを削減することを示しています。

ABSTRACT

Peer assessment has been widely applied across diverse academic fields over the last few decades and has demonstrated its effectiveness. However, the advantages of peer assessment can only be achieved with high-quality peer reviews. Previous studies have found that high-quality review comments usually comprise several features (e.g., contain suggestions, mention problems, use a positive tone). Thus, researchers have attempted to evaluate peer-review comments by detecting different features using various machine learning and deep learning models. However, there is no single study that investigates using a multi-task learning (MTL) model to detect multiple features simultaneously. This paper presents two MTL models for evaluating peer-review comments by leveraging the state-of-the-art pre-trained language representation models BERT and DistilBERT. Our results demonstrate that BERT-based models significantly outperform previous GloVe-based methods by around 6% in F1-score on tasks of detecting a single feature, and MTL further improves performance while reducing model size.

研究の動機と目的

  • ピアレビューの品質を自動的に評価する動機づけとなる仕組みを提案する。
  • 複数のレビュー特徴を同時に検出できるモデルを開発する。
  • 単一タスク設定とマルチタスク設定におけるGloVe、BERT、DistilBERTを比較する。
  • データ効率とリソース使用量(モデルサイズ、推論時間)を評価する。
  • ピアレビュー プラットフォームで高精度なモデルと軽量モデルの運用方針を提供する。

提案手法

  • TransformerベースのエンコーダをバックボーンとしてBERTおよびDistilBERTを使用する。
  • 三つの二値分類タスクを形式化する:提案、問題、肯定的トーン。
  • 単一タスク学習(STL)を、各タスクごとに1つの分類ヘッドを用いて実装し、共有バックボーンと3つのヘッドを用いるマルチタスク学習(MTL)を実装する。
  • クロスエントロピー損失で訓練し、 mildなクラス不均衡に対処するためコスト感知重み付けを適用する。
  • Expertizaデータセットの12,053件のピアレビューコメントを用いて事前学習済みモデルを微調整する。
  • 訓練データサイズを変化させた場合の精度、Macro-F1、AUCを評価する(1k、3k、5k)。

実験結果

リサーチクエスチョン

  • RQ1BERTは単一タスク検出の従来のGloVeベースアプローチより優れているか。
  • RQ2マルチタスク学習は、単一タスク学習と比較して性能とデータ効率を改善するか。
  • RQ3DistilBERTは STL および MTL において、精度とモデルサイズの点で BERT とどう比較されるか。
  • RQ4STL 対 MTL のパラメータコストはどの程度で、高精度を優先するか軽量化を優先するか、どちらが適しているか。

主な発見

モデル提案_正解率提案_Macro-F1提案_AUC問題_正解率問題_Macro-F1問題_AUCPosTone_正解率PosTone_Macro-F1PosTone_AUC
STL-GloVe (Baseline)89.9%0.8520.94784.2%0.8320.90885.0%0.7940.883
STL-BERT94.4%0.9160.98091.2%0.9120.96889.4%0.8520.950
MTL-BERT94.8%0.9220.98291.0%0.9080.96690.8%0.8540.951
STL-DistilBERT94.2%0.9120.97890.4%0.9020.96489.8%0.8600.944
MTL-DistilBERT94.2%0.9140.98090.4%0.9020.96490.6%0.8520.951
  • BERTベースのSTLはGloVeベースのSTLをすべてのタスクで著しく上回り、ラベル付きデータが少なくても高精度を達成できる。
  • MTLは提案と肯定的トーン検出の性能をデータが限られている場合に特に向上させ、全体のモデルサイズを削減する。
  • BERTはDistilBERTより精度でわずかに上回るが、DistilBERTは精度とサイズのトレードオフが良好。
  • 総パラメータ数:STL-BERT 328M 対 MTl-BERT 109M;STL-DistilBERT 199M 対 MTL-DistilBERT 66M;MTLで大幅なメモリ節約を示す。
  • 5kのラベル付きサンプルで、MTL-BERTは提案で94.8%、問題で91.0%、肯定的トーンで90.8%の精度(AUCおよびMacro-F1も高い)を達成する。
  • 高精度を最優先する場合はMTLモデルを推奨。軽量なデプロイにはMTL-DistilBERTを推奨。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。