[論文レビュー] Sentiment Analysis in Drug Reviews using Supervised Machine Learning Algorithms
本研究では、TF-IDFおよびカウントベクトル化による埋め込みを用いて、薬のレビューテキストの感情分析に教師あり機械学習を適用し、ニューラルネットワーク(ANN、LSTM、GRU)と従来のアルゴリズム(SVM、ロジスティック回帰、ランダムフォレスト)を含むモデルを評価した。結果として、カウントベクトル化を用いたディープラーニングモデルが他の組み合わせを上回り、避妊薬のレビューデータで最大93.85%のテスト精度を達成した。RNN変種(LSTM/GRU)は類似した性能を示し、ランダムフォレストは最も悪い性能を示した。
Sentiment Analysis is an important algorithm in Natural Language Processing which is used to detect sentiment within some text. In our project, we had chosen to work on analyzing reviews of various drugs which have been reviewed in form of texts and have also been given a rating on a scale from 1-10. We had obtained this data set from the UCI machine learning repository which had 2 data sets: train and test (split as 75-25\%). We had split the number rating for the drug into three classes in general: positive (7-10), negative (1-4) or neutral(4-7). There are multiple reviews for the drugs that belong to a similar condition and we decided to investigate how the reviews for different conditions use different words impact the ratings of the drugs. Our intention was mainly to implement supervised machine learning classification algorithms that predict the class of the rating using the textual review. We had primarily implemented different embeddings such as Term Frequency Inverse Document Frequency (TFIDF) and the Count Vectors (CV). We had trained models on the most popular conditions such as "Birth Control", "Depression" and "Pain" within the data set and obtained good results while predicting the test data sets.
研究の動機と目的
- テキスト的内容および関連するスコアに基づいて、薬のレビューテキストにおける感情分類のための教師あり機械学習の有効性を調査すること。
- 感情分類タスクにおける2つのテキスト埋め込み技術(TF-IDF と カウントベクトル化)の性能を比較すること。
- 薬のレビュースコアから導出された感情ラベルを予測するため、さまざまな機械学習およびディープラーニングモデル(例:ANN、LSTM、GRU、SVM、ロジスティック回帰、ランダムフォレスト)の性能を評価すること。
- 文脈的な語の使用法および特徴表現が、医療テキストにおける感情予測精度に顕著に影響を与えるかどうかを特定すること。
提案手法
- テキストの薬のレビューテキストを前処理し、感情ラベルに変換した:ポジティブ(7–10)、ネガティブ(1–4)、ニュートラル(4–7)。これにより回帰問題が多クラス分類問題に変換された。
- 2つのテキストベクトル化技術を適用した:項目の頻度・逆文書頻度(TF-IDF)とカウントベクトル化(CV)、両者とも生テキストを数値特徴行列に変換した。
- 多様な分類器を訓練・評価した。ディープラーニングモデル(ANN、LSTM、GRU)と従来の機械学習モデル(SVM、ロジスティック回帰、ランダムフォレスト)を含み、訓練データに対して10分割交差検証を実施し、未知のデータに対してテストした。
- グリッドサーチを用いてハイパーパramータチューニングを実施し、検証性能に基づいて最適なパラメータ(学習率、隠れユニット数、木の深さなど)を選定した。
- モデルの性能は、テスト精度、F1スコア、ROC曲線およびPR曲線、AUCスコアを用いて評価され、汎化能力および識別能力を評価した。
- 本研究では、3つの主要な医学的疾患(避妊薬、うつ病、痛み)を対象とし、異なる臨床的文脈におけるモデル性能を評価した。
実験結果
リサーチクエスチョン
- RQ1テキスト埋め込みの選択(TF-IDF 対 カウントベクトル化)が、薬のレビューテキストにおける感情分類精度に顕著な影響を与えるか?
- RQ2ディープラーニングモデル(例:ANN、LSTM、GRU)は、従来の機械学習モデル(例:SVM、ロジスティック回帰、ランダムフォレスト)と比較して、医療テキストにおける感情分類タスクで優れた性能を示すか?
- RQ3避妊薬、うつ病、痛みなどの複数の医学的疾患において、異なるモデルの性能に一貫した順位付けが見られるか?
- RQ4語の出現回数と語の重要度(CVおよびTF-IDFが捉えるもの)が、薬のレビューテキストからの感情予測能力にどの程度影響を与えるか?
- RQ5ロジスティック回帰やSVMとは異なり、他のNLPタスクでは頑健であるにもかかわらず、なぜランダムフォレストは性能が低いのか?
主な発見
- カウントベクトル化は、すべての条件下でTF-IDFを上回り、避妊薬データセットで最高のテスト精度93.85%を達成した。これは、感情予測において、語の出現頻度が語の重要度よりもより有用である可能性を示唆している。
- ディープラーニングモデル(ANN、LSTM、GRU)は、従来の機械学習モデルを一貫して上回った。特に、ANNは痛みのデータセットで93.41%のテスト精度、避妊薬で93.85%のテスト精度を達成した。
- LSTMおよびGRUモデルは、すべての条件下で類似した性能を示し、F1スコアおよびAUC値から、汎化能力および識別能力が同等であることが示された。
- SVMとロジスティック回帰は類似した性能パターンを示し、特にTF-IDF特徴量ではSVMがわずかにロジスティック回帰を上回った。これは、マージンに基づく分類が確率的しきい値処理よりも効果的である可能性を示唆している。
- ランダムフォレストモデルは、すべての条件下で最も悪い性能を示し、全データセットでテスト精度が62%未満にとどまった。これは、このタスクにおける汎化能力が著しく低いことを示しており、特徴間の相互作用学習が限られている可能性がある。
- 最も優れた性能を示したモデルの組み合わせは、ANNとカウントベクトル化の組み合わせであり、避妊薬で93.85%、うつ病で92.11%、痛みで91.29%の精度を達成した。これは、生の語の出現回数を用いたディープラーニングの優位性を確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。