Skip to main content
QUICK REVIEW

[논문 리뷰] An Improved k-Nearest Neighbor Algorithm for Text Categorization

Baoli Li, Shiwen Yu|ArXiv.org|2003. 06. 16.
Text and Document Classification Technologies참고 문헌 2인용 수 86
한 줄 요약

이 논문은 훈련 데이터의 클래스 빈도에 따라 각 클래스별로 근접한 이웃 수를 동적으로 조정하는 카테고리 적응형 k-NN 알고리즘을 제안한다. 이는 더 큰 클래스에 대한 편향을 줄이고, 특히 교차 검증이 불가능한 경우에 k에 대한 민감도를 감소시킨다. 중국어 텍스트에 대한 실험 결과, 소규모 클래스에서의 성능 향상과 k에 대한 민감도 감소가 확인되었다.

ABSTRACT

k is the most important parameter in a text categorization system based on k-Nearest Neighbor algorithm (kNN).In the classification process, k nearest documents to the test one in the training set are determined firstly. Then, the predication can be made according to the category distribution among these k nearest neighbors. Generally speaking, the class distribution in the training set is uneven. Some classes may have more samples than others. Therefore, the system performance is very sensitive to the choice of the parameter k. And it is very likely that a fixed k value will result in a bias on large categories. To deal with these problems, we propose an improved kNN algorithm, which uses different numbers of nearest neighbors for different categories, rather than a fixed number across all categories. More samples (nearest neighbors) will be used for deciding whether a test document should be classified to a category, which has more samples in the training set. Preliminary experiments on Chinese text categorization show that our method is less sensitive to the parameter k than the traditional one, and it can properly classify documents belonging to smaller classes with a large k. The method is promising for some cases, where estimating the parameter k via cross-validation is not allowed.

연구 동기 및 목표

  • 훈련 데이터의 클래스 분포가 비균형일 경우 기존 k-NN 텍스트 분류에서 발생하는 편향을 해결하기 위해.
  • 고정된 k의 선택에 민감도를 줄이기 위해 각 클래스별로 k 값을 허용함으로써.
  • k 선택을 위한 교차 검증에 의존하지 않고도 소수의(작은) 클래스에 대한 분류 정확도를 향상시키기 위해.
  • 훈련 데이터 통계에 기반해 자주 발생하는 클래스에는 더 많은 이웃을, 드문 클래스에는 더 적은 이웃을 사용하는 방법을 개발하기 위해.

제안 방법

  • 알고리즘은 각 카테고리에 대해 해당 카테고리의 훈련 샘플 수에 따라 다른 k 값을 할당한다.
  • 각 테스트 문서에 대해, 각 카테고리의 고유한 k 값을 사용하여 별도로 k개의 가장 가까운 이웃을 선택한다.
  • 최종 분류 결정은 각 카테고리별로 고려된 가장 가까운 이웃들 간의 다수결 투표에 의해 이루어진다.
  • 각 카테고리에서 사용하는 이웃 수는 훈련 세트에서 해당 카테고리의 크기에 비례하며, 더 큰 카테고리에 더 많은 이웃을 할당한다.
  • 고정된 k를 피하기 위해, 클래스 빈도의 함수로 계산된 동적 k를 각 클래스별로 사용한다.
  • 분류 과정에서 각 카테고리별로 독립적으로 적용되어 더 큰 카테고리가 결정에 더 많은 기여를 하도록 보장한다.

실험 결과

연구 질문

  • RQ1카테고리별로 동적으로 k를 선택할 경우, 불균형한 텍스트 분류에서 성능에 어떤 영향을 미치는가?
  • RQ2카테고리 적응형 k-NN 접근 방식이 텍스트 분류에서 더 큰 클래스에 대한 편향을 줄일 수 있는가?
  • RQ3기존의 고정된 k를 사용하는 k-NN에 비해 제안된 방법이 k 선택에 대해 얼마나 감소된 민감도를 보이는가?
  • RQ4k 조정을 위한 교차 검증이 필요 없이도 이 방법이 소규모 클래스의 문서를 효과적으로 분류할 수 있는가?

주요 결과

  • 제안된 방법은 기존의 고정된 k를 사용하는 k-NN 알고리즘에 비해 k 선택에 대한 민감도를 크게 감소시킨다.
  • 알고리즘은 특히 큰 k를 사용할 경우 소규모 클래스의 분류 정확도를 향상시킨다.
  • 더 큰 클래스에서도 높은 성능를 유지하면서 소수 클래스 탐지 능력을 향상시킨다.
  • k 선택을 위한 교차 검증이 불가능한 상황에서도 이 방법은 효과적으로 기능한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.