[论文解读] Sentiment Analysis in Drug Reviews using Supervised Machine Learning Algorithms
本研究采用监督式机器学习方法,基于TF-IDF与词袋向量编码对药物评论进行情感分析,评估了包括神经网络(ANN、LSTM、GRU)和传统算法(SVM、逻辑回归、随机森林)在内的多种模型。结果表明,使用词袋向量编码的深度学习模型优于其他组合,在避孕药评论中达到最高93.85%的测试准确率,且RNN变体(LSTM/GRU)表现相近,而随机森林模型表现最差。
Sentiment Analysis is an important algorithm in Natural Language Processing which is used to detect sentiment within some text. In our project, we had chosen to work on analyzing reviews of various drugs which have been reviewed in form of texts and have also been given a rating on a scale from 1-10. We had obtained this data set from the UCI machine learning repository which had 2 data sets: train and test (split as 75-25\%). We had split the number rating for the drug into three classes in general: positive (7-10), negative (1-4) or neutral(4-7). There are multiple reviews for the drugs that belong to a similar condition and we decided to investigate how the reviews for different conditions use different words impact the ratings of the drugs. Our intention was mainly to implement supervised machine learning classification algorithms that predict the class of the rating using the textual review. We had primarily implemented different embeddings such as Term Frequency Inverse Document Frequency (TFIDF) and the Count Vectors (CV). We had trained models on the most popular conditions such as "Birth Control", "Depression" and "Pain" within the data set and obtained good results while predicting the test data sets.
研究动机与目标
- 探究监督式机器学习在基于文本内容及关联评分对药物评论进行情感分类方面的有效性。
- 比较不同文本嵌入技术(TF-IDF与词袋向量编码)在情感分类任务中的表现。
- 评估一系列机器学习与深度学习模型(如ANN、LSTM、GRU、SVM、逻辑回归、随机森林)在基于药物评论评分预测情感类别时的性能。
- 确定上下文词语使用与特征表示是否显著影响医学文本中情感预测的准确性。
提出的方法
- 对药物评论文本进行预处理,并转换为情感类别:正面(7–10)、负面(1–4)和中性(4–7),将回归任务转化为多分类问题。
- 应用两种文本向量化技术:词频-逆文档频率(TF-IDF)与词袋向量编码(CV),均将原始文本转换为数值特征矩阵。
- 训练并评估多种分类器,包括深度学习模型(ANN、LSTM、GRU)和传统机器学习模型(SVM、逻辑回归、随机森林),在训练数据上采用10折交叉验证,并在未见数据上进行测试。
- 通过网格搜索进行超参数调优,基于验证性能选择最优参数,包括初始学习率、隐藏单元数及树深。
- 使用测试准确率、F1-score、ROC与PR曲线及AUC分数评估模型性能,以衡量泛化能力与判别能力。
- 研究聚焦于三种主要医学病症——避孕药、抑郁症与疼痛,以评估模型在不同临床情境下的表现。
实验结果
研究问题
- RQ1文本嵌入方式的选择(TF-IDF与词袋向量编码)是否显著影响药物评论中的情感分类准确率?
- RQ2在医学文本中,深度学习模型(如ANN、LSTM、GRU)与传统机器学习模型(如SVM、逻辑回归、随机森林)在情感分类性能上如何比较?
- RQ3在多个医学病症(如避孕药、抑郁症、疼痛)中,不同模型是否存在一致的性能排序?
- RQ4词频与词重要性(由CV与TF-IDF捕捉)在多大程度上影响模型从药物评论中预测情感的能力?
- RQ5为何某些模型(如随机森林)尽管在其他NLP任务中表现稳健,却在此任务中表现欠佳?
主要发现
- 词袋向量编码在所有病症中均优于TF-IDF,在避孕药数据集中达到最高93.85%的测试准确率,表明原始词频比词重要性更能有效支持情感预测。
- 深度学习模型(ANN、LSTM、GRU)始终优于传统机器学习模型,其中ANN在疼痛数据集上达到93.41%的测试准确率,在避孕药数据集上达到93.85%。
- LSTM与GRU模型在所有条件下表现相近,F1分数与AUC值表明其泛化能力与判别能力相当。
- SVM与逻辑回归表现出相似的性能模式,SVM在TF-IDF特征上略胜逻辑回归,可能是因为基于间隔的分类方法在该任务中比基于概率阈值的方法更有效。
- 随机森林模型在所有条件下表现最差,所有数据集的测试准确率均低于62%,表明其在该任务中泛化能力差,可能由于对特征交互学习能力有限。
- 表现最佳的模型组合为ANN搭配词袋向量编码,在避孕药数据集上达到93.85%准确率,抑郁症数据集为92.11%,疼痛数据集为91.29%,证实了深度学习结合原始词频的优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。