[論文レビュー] Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks
この論文は、LLM生成の合成データを用いて自閉症関連の行動をラベリングするBERTベースの分類器を補強し、データ品質とモデル性能への影響を評価します。補強によりリコールが向上しましたが、適合率は低下しました。抽出された対の品質は臨床医による検証で約83%でした。
An important problem impacting healthcare is the lack of available experts. Machine learning (ML) models may help resolve this by aiding in screening and diagnosing patients. However, creating large, representative datasets to train models is expensive. We evaluated large language models (LLMs) for data creation. Using Autism Spectrum Disorders (ASD), we prompted GPT-3.5 and GPT-4 to generate 4,200 synthetic examples of behaviors to augment existing medical observations. Our goal is to label behaviors corresponding to autism criteria and improve model accuracy with synthetic training data. We used a BERT classifier pretrained on biomedical literature to assess differences in performance between models. A random sample (N=140) from the LLM-generated data was also evaluated by a clinician and found to contain 83% correct behavioral example-label pairs. Augmenting the dataset increased recall by 13% but decreased precision by 16%. Future work will investigate how different synthetic data characteristics affect ML outcomes.
研究の動機と目的
- MLモデルにおける希少な専門家ラベル付き医療データを解消するための合成データの活用を動機づける。
- LLM生成の観察が自閉症基準をラベル付けして訓練データを補強できるかを評価する。
- 生物医療文献で訓練されたBERT分類器に対する合成データの影響を評価する。
- 合成ラベルの現実性を測る臨床医が裏付けたサンプル品質チェックを提供する。
提案手法
- チャットGPTおよびGPT-Premiumを用いて、自閉症基準をラベル付けする4,200件の合成観察を作成する。
- 生物医療分野で事前学習されたBERT分類器を用いて、補強データを含む場合の性能差を評価する。
- 臨床医評価のためにランダムに140件の合成観察をサンプリングし、ラベルの正確さを推定する(83%が正しい)。
- 合成データを訓練データに追加した場合のリコールと適合率の変化を測定する。
実験結果
リサーチクエスチョン
- RQ1LLM生成の合成データは自閉症関連の行動ラベリングの分類器性能を改善できるか。
- RQ2臨床医によって評価された場合のLLM生成例の品質(ラベル正確さ)はどの程度か。
- RQ3補強された合成データはBERTベースのモデルの主要な性能指標(リコール、適合率)にどのような影響を与えるか。
主な発見
- 合成観察でデータを補強するとリコールが13%向上する。
- 補強データは適合率を16%低下させる。
- ランダムサンプル(N=140)の臨床評価で83%の正例-ラベル対が確認された。
- 合成データの品質は特性によって異なり、機械学習の結果に影響を与える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。