[논문 리뷰] A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques
이 설문은 전처리, 표현, 분류, 군집화 및 생물의학 텍스트 마이닝과 같은 도메인 응용을 포함한 기본 텍스트 마이닝 작업과 기법을 검토합니다.
The amount of text that is generated every day is increasing dramatically. This tremendous volume of mostly unstructured text cannot be simply processed and perceived by computers. Therefore, efficient and effective techniques and algorithms are required to discover useful patterns. Text mining is the task of extracting meaningful information from text, which has gained significant attentions in recent years. In this paper, we describe several of the most fundamental text mining tasks and techniques including text pre-processing, classification and clustering. Additionally, we briefly explain text mining in biomedical and health care domains.
연구 동기 및 목표
- 텍스트 마이닝 및 텍스트에서의 지식 발견(KDT)의 핵심 개념, 작업, 관계를 설명한다.
- 텍스트 마이닝에서 사용되는 핵심 전처리, 표현, 학습 방법을 설명한다.
- 텍스트 데이터의 분류 및 군집화를 위한 지도학습(supervised) 및 비지도학습(unsupervised) 방법을 개요한다.
- 생물의학 텍스트 마이닝 및 감성 분석과 같은 도메인 특화 응용을 논의한다.
제안 방법
- 텍스트 마이닝 개념을 소개하고 KDD와 데이터 마이닝을 구분한다.
- bag-of-words와 벡터 공간 모델을 통한 텍스트 표현을 설명한다 (TF-IDF 포함).
- 전처리 단계(tokenization, filtering, lemmatization, stemming)와 분류에 대한 영향력을 제시한다.
- Naive Bayes, nearest neighbor, decision trees, SVM과 같은 분류 알고리즘 및 정밀도, 재현율, F1 등의 평가 지표를 검토한다.
- 계층적, k-means, 확률적 주제 기반 방법을 포함한 군집화 접근법과 주제 모델(pLSA, LDA)을 논의한다.
- 특수 도메인에서의 텍스트 마이닝 강조(정보 검색, NLP, 정보 추출, 텍스트 요약, 그리고 생물의학 텍스트 마이닝).
실험 결과
연구 질문
- RQ1텍스트 마이닝의 기본 작업과 구성 요소는 무엇인가?
- RQ2전처리, 표현 및 학습 방법이 텍스트 마이닝 성능에 어떤 영향을 미치는가?
- RQ3텍스트 분류와 군집화를 위한 주된 지도학습 및 비지도학습 기술은 무엇인가?
- RQ4주제 모델과 확률적 방법이 텍스트 데이터에 어떻게 적용되는가?
- RQ5생물의학 텍스트 마이닝과 감성 분석에서의 도메인 특수 고려사항은 무엇인가?
주요 결과
- 본 논문은 핵심 텍스트 마이닝 작업(전처리, 표현, 분류, 군집화, 정보 검색, 정보 추출)을 하나로 정리한다.
- 벡터 공간 모델과 TF-IDF를 이용한 bag-of-words가 문서 표현 및 유사도 계산의 핵심이다.
- Naive Bayes, nearest neighbor, decision trees, SVM 등을 포함한 다양한 분류 방법을 검토하고 상대적 강점에 대해 논의한다.
- 계층적, k-means 및 확률적/주제 모델 기반 접근법(pLSA, LDA)으로 군집화를 제시한다.
- 주제 모델(LDA, pLSA)이 텍스트 모음에서 주제를 발견하는 강력한 비지도 학습 방법으로 확인된다.
- 도메인 특화 논의에는 정보 추출, 텍스트 요약, 의견 마이닝, 생물의학 텍스트 마이닝이 포함된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.