[논문 리뷰] A Comparative Study on TF-IDF feature Weighting Method and its Analysis using Unstructured Dataset
이 논문은 비구조화된 리뷰에서 감정 분류를 위한 TF-IDF와 N-Gram 피처 표현을 비교하며, 특정 분류기(특히 Random Forest)에서 TF-IDF가 최고 성능을 달성한다는 것을 보여준다.
Text Classification is the process of categorizing text into the relevant categories and its algorithms are at the core of many Natural Language Processing (NLP). Term Frequency-Inverse Document Frequency (TF-IDF) and NLP are the most highly used information retrieval methods in text classification. We have investigated and analyzed the feature weighting method for text classification on unstructured data. The proposed model considered two features N-Grams and TF-IDF on the IMDB movie reviews and Amazon Alexa reviews dataset for sentiment analysis. Then we have used the state-of-the-art classifier to validate the method i.e., Support Vector Machine (SVM), Logistic Regression, Multinomial Naive Bayes (Multinomial NB), Random Forest, Decision Tree, and k-nearest neighbors (KNN). From those two feature extractions, a significant increase in feature extraction with TF-IDF features rather than based on N-Gram. TF-IDF got the maximum accuracy (93.81%), precision (94.20%), recall (93.81%), and F1-score (91.99%) value in Random Forest classifier.
연구 동기 및 목표
- 비구조적 데이터에서 텍스트 분류에 대한 특징 가중치의 영향을 설명한다.
- 감정 분석 작업에서 TF-IDF와 N-Gram 특징을 평가한다.
- 다양한 데이터셋에서 특징 표현을 검증하기 위해 여러 분류기를 평가한다.
- 실용적 감정 분석에서 TF-IDF가 N-Gram보다 성능 향상을 보임을 보여준다.
제안 방법
- 감정 분석을 위해 IMDB와 Amazon Alexa 리뷰에서 N-Grams 및 TF-IDF의 두 특징 추출 방법을 사용한다.
- 다양한 분류기를 적용한다: SVM, 로지스틱 회귀, 다항 나이브 베이즈, Random Forest, 결정 트리, 그리고 KNN.
- 특징 방법과 분류기에 걸쳐 정확도, 정밀도, 재현율, F1-점수를 비교한다.
- 최고의 특징-방법/분류기 조합을 식별하기 위해 성능 지표를 보고한다.
실험 결과
연구 질문
- RQ1TF-IDF 특징 가중치가 비구조적 데이터셋의 감정 분석에서 N-Gram 특징에 비해 유의미한 성능 우위를 제공하는가?
- RQ2주어진 데이터셋에서 어떤 분류기가 TF-IDF 특징을 가장 잘 활용하는가?
- RQ3IMDB와 Amazon Alexa 리뷰에서 TF-IDF와 N-Gram 특징이 정확도, 정밀도, 재현율, F1 점수 면에서 어떻게 비교되는가?
주요 결과
- TF-IDF 특징이 평가된 분류기들에서 N-Gram 특징보다 더 높은 성능을 나타냈다.
- Random Forest가 TF-IDF로 최상위 지표를 달성했다: 정확도 93.81%, 정밀도 94.20%, 재현율 93.81%, F1-점수 91.99%.
- TF-IDF 기반 특징 추출은 비구조적 데이터셋에서 N-Gram 기반 특징에 비해 현저한 성능 향상을 보였다.
- 본 연구는 영화 리뷰 및 어시스턴트 리뷰에 대한 감정 분석에서 TF-IDF를 효과적인 특징 가중치 방법으로 검증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.