QUICK REVIEW

[논문 리뷰] A Study on Feature Selection Techniques in Educational Data Mining

M. Ramaswami, R. Bhaskaran|ArXiv.org|2009. 12. 19.

Machine Learning and Data Classification참고 문헌 10인용 수 123

한 줄 요약

이 연구는 학생 성취도 예측 변수의 최적의 부분집합을 식별하기 위해 교육 데이터 마이닝에서 여섯 가지 필터링된 특성 선택 기법을 평가한다. 기준 분류기로 NaiveBayes를 사용하여 특성 차원을 줄임으로써 예측 정확도, F-측도 및 ROC 값이 향상되고 계산 비용이 감소함을 입증한다. 여러 분류기 간 비교 벤치마킹을 통해 가장 우수한 성능을 보인 방법이 특정해진다.

ABSTRACT

Educational data mining (EDM) is a new growing research area and the essence of data mining concepts are used in the educational field for the purpose of extracting useful information on the behaviors of students in the learning process. In this EDM, feature selection is to be made for the generation of subset of candidate variables. As the feature selection influences the predictive accuracy of any performance model, it is essential to study elaborately the effectiveness of student performance model in connection with feature selection techniques. In this connection, the present study is devoted not only to investigate the most relevant subset features with minimum cardinality for achieving high predictive performance by adopting various filtered feature selection techniques in data mining but also to evaluate the goodness of subsets with different cardinalities and the quality of six filtered feature selection algorithms in terms of F-measure value and Receiver Operating Characteristics (ROC) value, generated by the NaiveBayes algorithm as base-line classifier method. The comparative study carried out by us on six filter feature section algorithms reveals the best method, as well as optimal dimensionality of the feature subset. Benchmarking of filter feature selection method is subsequently carried out by deploying different classifier models. The result of the present study effectively supports the well known fact of increase in the predictive accuracy with the existence of minimum number of features. The expected outcomes show a reduction in computational time and constructional cost in both training and classification phases of the student performance model.

연구 동기 및 목표

최소 기수를 가진 학생 성취도 예측을 위한 가장 관련성이 높은 특성 부분집합을 식별하기 위해.
여섯 가지 필터링된 특성 선택 알고리즘의 성능 향상 효과를 평가하기 위해.
F-측도 및 ROC 값으로 특성 부분집합 크기가 예측 정확도에 미치는 영향을 평가하기 위해.
여러 분류기 모델 간 비교를 통해 가장 우수한 성능을 보이는 특성 선택 방법을 벤치마킹하기 위해.
최적의 특성 선택을 통해 학생 성취도 모델링의 계산 시간과 학습 비용을 감소시키기 위해.

제안 방법

통계적 측정 기반으로 교육 데이터셋에서 관련 특성을 추출하기 위해 필터링된 특성 선택 기법을 적용하였다.
높은 품질의 특성 부분집합을 선택할 수 있는 능력을 평가하기 위해 여섯 가지 특정 필터링 알고리즘을 평가하였다.
각 선택된 특성 부분집합에 대해 F-측도 및 ROC 값을 계산하기 위해 기준 분류기로 NaiveBayes를 사용하였다.
분류 품질을 평가하기 위해 F-측도 및 수확곡선 아래 면적(AUC)을 성능 측정 지표로 사용하였다.
최적의 차원으로의 특성 부분집합 크기를 결정하기 위해 다양한 기수를 가진 특성 부분집합을 테스트하였다.
가장 우수한 성능을 보이는 특성 선택 방법은 다수의 분류기 모델을 사용하여 추가로 검증하여 벤치마킹하였다.

실험 결과

연구 질문

RQ1어느 필터링된 특성 선택 기법이 학생 성취도 모델의 예측 정확도를 가장 높게 산출하는가?
RQ2선택된 특성 부분집합의 기수는 F-측도 및 ROC 값에 어떻게 영향을 미치는가?
RQ3모델 성능을 최대화하는 데 가장 적합한 특성 부분집합의 차원은 무엇인가?
RQ4특성 선택은 학습 및 분류 단계에서 계산 비용을 어떻게 감소시키는가?
RQ5어느 특성 선택 방법이 여러 분류기 모델 간에서 일관되게 뛰어난 성능을 보이는가?

주요 결과

연구는 F-측도 및 ROC 성능 지표를 바탕으로 가장 효과적인 필터링된 특성 선택 방법을 규명하였다.
특성 차원을 줄임으로써 예측 정확도가 향상되어, 최소이면서도 관련성이 높은 특성 집합의 이점이 입증되었다.
최적의 특성 부분집합 크기는 모델 성능을 향상시키면서도 계산 오버헤드를 최소화하는 데 기여하였다.
가장 뛰어난 성능을 보이는 특성 선택 방법은 여러 분류기 모델 간에서 일관된 우수성을 보였다.
특성 부분집합 최적화 덕분에 계산 시간과 모델 구축 비용이 크게 감소하였다.
결과는 교육 데이터 마이닝에서 적은 수의 고품질 특성 집합이 더 나은 예측 모델을 산출한다는 기존 원칙을 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.