Skip to main content
QUICK REVIEW

[논문 리뷰] Numerical Coding of Nominal Data

Zenon Gniazdowski, Michał Grabowski|arXiv (Cornell University)|2015. 08. 12.
Neural Networks and Applications참고 문헌 4인용 수 3
한 줄 요약

이 논문은 복소수를 사용하여 명목형 데이터를 인코딩하는 새로운 방법을 제안한다. 여기서 크기는 빈도(기수)를 나타내고, 위상은 동수 카테고리 내의 순서를 표현한다. 명목형 속성을 복소수 공간에 임bedding함으로써 원래의 정보를 모두 유지하고 산술 연산을 가능하게 하며, 거리 기반 학습을 지원한다. 자동차 데이터셋에서의 평가 결과, 전통적인 방법이나 순수 수치적 인코딩에 비해 복소수로 인코딩된 명목형 데이터를 사용할 경우 분류 정확도가 크게 향상됨을 확인하였다.

ABSTRACT

In this paper, a novel approach for coding nominal data is proposed. For the given nominal data, a rank in a form of complex number is assigned. The proposed method does not lose any information about the attribute and brings other properties previously unknown. The approach based on these knew properties can been used for classification. The analyzed example shows that classification with the use of coded nominal data or both numerical as well as coded nominal data is more effective than the classification, which uses only numerical data.

연구 동기 및 목표

  • 명목형 데이터와 수치형 데이터를 머신러닝에서 통합할 때 정보 손실이나 임의의 순서 부여 없이 처리하는 데 도전하는 것.
  • 모든 속성 정보를 유지하면서도 분석을 향상시키기 위한 기하학적 구조를 추가하는 인코딩 방법을 개발하는 것.
  • 복소수 임bedding을 통해 명목형 데이터에 거리, 군집화 등 거리 기반 연산(예: 거리, 군집화)을 가능하게 하는 것.
  • 표준 인코딩 기법과 비교하여 복소수로 인코딩된 명목형 데이터가 분류 성능을 향상시키는지 평가하는 것.

제안 방법

  • 각 명목형 값에 대해 빈도(기수)에 따라 순위를 할당하며, n개의 발생에 대해 R = (n + 1)/2를 사용한다.
  • 동수 카테고리의 경우, 단위의 k제곱근을 적용하여 서로 다른 위상을 할당한다: Rj = R · e^(i·2πj/k), 여기서 j는 카테고리 인덱스이다.
  • 각 명목형 값을 크기 R과 위상 φ = 2πj/k를 가진 복소수로 인코딩하여 복소수 공간 C에 있는 복소수 벡터를 형성한다.
  • 후속 학습을 위해 복소수 공간에서 표준 산술, 스칼라 곱, 노름, 거리(메트릭) 연산을 가능하게 한다.
  • 실제 데이터(자동차 속성)에 이 방법을 적용하고, 특징을 표준화한 후, 복소수로 인코딩된 특징에 대해 유클리드 거리 기반 k-means를 사용한다.

실험 결과

연구 질문

  • RQ1빈도 정보를 유지하면서도 기하학적 연산이 가능한 방식으로 명목형 데이터를 인코딩할 수 있는가?
  • RQ2복소수로 인코딩된 명목형 데이터는 괴상적 또는 순수 수치적 인코딩에 비해 분류 정확도를 향상시키는가?
  • RQ3복소수 인코딩의 위상 성분이 동수 명목형 카테고리를 효과적으로 구분할 수 있는가?
  • RQ4복소수 공간의 메트릭 구조는 군집화 및 분류 작업에 적합한가?

주요 결과

  • 수치형 데이터와 복소수로 인코딩된 명목형 데이터를 모두 사용한 분류에서는 90%의 정확도를 달성하였으며, 수치형 데이터만 또는 괴상적 인코딩을 사용한 방법보다 유의미하게 높은 성능을 보였다.
  • 복소수로 인코딩된 명목형 데이터만을 사용한 경우에도 80%의 정확도를 달성하여, 명목형 데이터의 빈도 및 카테고리 구조가 의미 있는 예측 정보를 지닌다는 것을 입증하였다.
  • 반면, 수치형 데이터만을 기반으로 한 분류에서는 70% 임계값에서 정확도가 단지 12%에 그쳐, 명목형 데이터의 구조를 忽略하는 것의 한계를 드러내었다.
  • 복소수 인코딩을 사용함으로써 기존 원-핫 인코딩에 비해 명목형 특징의 효과적 차원 수를 감소시켜, 고차원 환경에서 잠재적인 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.