QUICK REVIEW

[논문 리뷰] Sentiment Analysis in Drug Reviews using Supervised Machine Learning Algorithms

Sairamvinay Vijayaraghavan, Debraj Basu|arXiv (Cornell University)|2020. 03. 21.

Sentiment Analysis and Opinion Mining참고 문헌 2인용 수 27

한 줄 요약

이 연구는 TF-IDF와 Count Vectorizer 임베딩을 사용하여 약물 리뷰의 감성 분석에 지도 학습 기반 기계 학습을 적용한다. 신경망(ANN, LSTM, GRU)과 전통적 알고리즘(SVM, 로지스틱 회귀, 랜덤 포레스트)을 평가한 결과, Count Vectorizer를 사용하는 딥러닝 모델이 다른 조합보다 뛰어나며, 피임제 리뷰에서 최대 93.85%의 테스트 정확도를 기록했다. RNN 변종(LSTM/GRU)은 유사한 성능을 보였고, 랜덤 포레스트는 가장 열 劣한 성능을 보였다.

ABSTRACT

Sentiment Analysis is an important algorithm in Natural Language Processing which is used to detect sentiment within some text. In our project, we had chosen to work on analyzing reviews of various drugs which have been reviewed in form of texts and have also been given a rating on a scale from 1-10. We had obtained this data set from the UCI machine learning repository which had 2 data sets: train and test (split as 75-25\%). We had split the number rating for the drug into three classes in general: positive (7-10), negative (1-4) or neutral(4-7). There are multiple reviews for the drugs that belong to a similar condition and we decided to investigate how the reviews for different conditions use different words impact the ratings of the drugs. Our intention was mainly to implement supervised machine learning classification algorithms that predict the class of the rating using the textual review. We had primarily implemented different embeddings such as Term Frequency Inverse Document Frequency (TFIDF) and the Count Vectors (CV). We had trained models on the most popular conditions such as "Birth Control", "Depression" and "Pain" within the data set and obtained good results while predicting the test data sets.

연구 동기 및 목표

텍스트 콘텐츠와 관련된 평가 점수를 기반으로 약물 리뷰의 감성 분류에 지도 기반 기계 학습의 효과성을 조사하는 것.
감성 분류 작업에서 두 가지 텍스트 임베딩 기법—TF-IDF와 Count Vectorizer—의 성능을 비교하는 것.
약물 리뷰 평가 점수에서 유도된 감성 클래스를 예측하기 위해 다양한 기계 학습 및 딥러닝 모델(예: ANN, LSTM, GRU, SVM, 로지스틱 회귀, 랜덤 포레스트)을 평가하는 것.
맥락적 단어 사용과 특징 표현이 의료 텍스트에서 감성 예측 정확도에 상당한 영향을 미치는지 확인하는 것.

제안 방법

텍스트 기반 약물 리뷰는 사전 처리되어 감성 클래스로 변환되었으며, 양성(7–10), 부정(1–4), 중립(4–7)으로 분류되어 회귀 문제에서 다중 분류 문제로 전환되었다.
두 가지 텍스트 벡터화 기법이 적용되었으며, 각각 Term Frequency-Inverse Document Frequency(TF-IDF)와 Count Vectorizer(CV)로, 원시 텍스트를 수치적 특징 행렬로 변환하였다.
다양한 분류기 모델이 훈련 및 평가되었으며, 딥러닝 모델(ANN, LSTM, GRU)과 전통적 기계 학습 모델(SVM, 로지스틱 회귀, 랜덤 포레스트)을 포함하였고, 훈련 데이터에 대해 10겹 교차 검증을 수행하고, 검증 데이터에 대해 테스트를 실시하였다.
하이퍼파rameter 튜닝은 그리드 서치를 통해 수행되었으며, 검증 성능 기반으로 최적의 파라미터가 선택되었으며, 학습률, 은닉 유닛 수, 트리 깊이 등이 포함되었다.
모델 성능 평가에는 일반화 능력과 분류 능력을 평가하기 위해 테스트 정확도, F1 점수, ROC 및 PR 곡선, AUC 점수가 사용되었다.
연구는 세 가지 주요 의료 상태—피임, 우울증, 통증—에 초점을 맞춰, 다양한 임상 맥락에서 모델 성능을 평가하였다.

실험 결과

연구 질문

RQ1TF-IDF와 Count Vectorizer 간 텍스트 임베딩 기법의 선택이 약물 리뷰의 감성 분류 정확도에 유의미한 영향을 미치는가?
RQ2의료 텍스트에서 감성 분류 작업에서 딥러닝 모델(예: ANN, LSTM, GRU)이 전통적 기계 학습 모델(예: SVM, 로지스틱 회귀, 랜덤 포레스트)보다 성능이 뛰어나게 되는가?
RQ3다양한 의료 상태(예: 피임, 우울증, 통증)에서 다양한 모델 간 일관된 성능 계층이 존재하는가?
RQ4단어 수와 단어 중요도(각각 CV와 TF-IDF에 의해 캡처됨)가 약물 리뷰에서 감성 예측 능력에 어느 정도 기여하는가?
RQ5랜덤 포레스트와 같은 일부 모델이 다른 NLP 작업에서는 강력한 성능을 보임에도 불구하고, 왜 이 작업에서는 성능이 열 劣한가?

주요 결과

Count Vectorizer는 모든 조건에서 TF-IDF를 능가하였으며, 피임제 데이터셋에서 최고의 테스트 정확도 93.85%를 기록하여, 감성 예측에 있어 원시 단어 빈도가 단어 중요도보다 더 유용하다는 것을 시사한다.
딥러닝 모델(ANN, LSTM, GRU)은 전통적 기계 학습 모델보다 일관되게 뛰어난 성능을 보였으며, ANN는 통증 데이터셋에서 93.41%의 테스트 정확도, 피임제 데이터셋에서 93.85%의 정확도를 기록하였다.
LSTM과 GRU 모델은 모든 조건에서 유사한 성능을 보였으며, F1 점수와 AUC 값은 일반화 및 분류 능력이 유사하다는 것을 시사한다.
SVM과 로지스틱 회귀는 유사한 성능 패턴을 보였으며, 특히 TF-IDF 특징에서 SVM이 약간 더 뛰어난 성능을 보였다. 이는 마진 기반 분류가 확률 기반 임계값 설정보다 더 효과적일 수 있음을 시사한다.
랜덤 포레스트 모델은 모든 조건에서 가장 열 劣한 성능을 보였으며, 모든 데이터셋에서 테스트 정확도가 62% 이하였고, 이는 이 작업에서 일반화 능력이 떨어졌음을 시사한다. 이는 특징 간 상호작용 학습 능력이 제한되었을 가능성이 있다.
가장 뛰어난 성능을 보인 모델 조합은 ANN와 Count Vectorizer의 조합으로, 피임제에서 93.85%, 우울증에서 92.11%, 통증에서 91.29%의 정확도를 기록하여, 원시 단어 수를 사용한 딥러닝의 우수성을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.