Skip to main content
QUICK REVIEW

[論文レビュー] Numerical Coding of Nominal Data

Zenon Gniazdowski, Michał Grabowski|arXiv (Cornell University)|Aug 12, 2015
Neural Networks and Applications参考文献 4被引用数 3
ひとこと要約

本論文は、複素数を用いた名目データの符号化法を提案する。ここで、大きさは頻度(集合の基数)を表し、位相は同頻度のカテゴリ内での順序を符号化する。名目的属性を複素空間に埋め込むことで、元の情報が完全に保持され、算術演算が可能になり、メトリクスに基づく学習が可能になる。自動車データセットを用いた評価では、従来の任意の符号化法や純粋に数値的な符号化法と比較して、複素数符号化された名目的データを用いた場合、分類精度が顕著に向上した。

ABSTRACT

In this paper, a novel approach for coding nominal data is proposed. For the given nominal data, a rank in a form of complex number is assigned. The proposed method does not lose any information about the attribute and brings other properties previously unknown. The approach based on these knew properties can been used for classification. The analyzed example shows that classification with the use of coded nominal data or both numerical as well as coded nominal data is more effective than the classification, which uses only numerical data.

研究の動機と目的

  • 名目的データと数値的データを機械学習で統合する際、情報損失や任意の順序付けを回避する課題に対処すること。
  • すべての属性情報が保持されるとともに、幾何的構造が追加されて分析が向上するような符号化手法を開発すること。
  • 複素数による埋め込みを通じて、名目的データに対してメトリクスに基づく演算(距離、クラスタリングなど)を可能にすること。
  • 標準的な符号化手法と比較して、複素数符号化された名目的データが分類性能を向上させるかどうかを評価すること。

提案手法

  • 各名目的値にその頻度(基数)に基づいた順位を割り当てる。n 回出現する場合、R = (n + 1)/2 を用いる。
  • 同頻度のカテゴリに対しては、単位のk乗根を用いて異なる位相を割り当てる:Rj = R · e^(i·2πj/k),ここで j はカテゴリのインデックスである。
  • 各名目的値を、大きさ R と位相 φ = 2πj/k を持つ複素数として符号化し、C 内の複素ベクトルを形成する。
  • 複素空間における標準的な算術演算、スカラー積、ノルム、および距離(メトリクス)を、後続の学習に可能にする。
  • 実世界のデータ(自動車の属性)にこの手法を適用し、特徴量を標準化し、複素数符号化された特徴量に対してユークリッド距離を用いた k-means を実行する。

実験結果

リサーチクエスチョン

  • RQ1頻度情報を保持しつつ、幾何的演算が可能な方法で名目的データを符号化できるか?
  • RQ2複素数による符号化が、任意の符号化法や純粋に数値的な符号化法と比較して、分類精度を向上させるか?
  • RQ3複素符号化における位相成分が、同頻度の名目的カテゴリを効果的に区別できるか?
  • RQ4複素空間におけるメトリクス構造は、クラスタリングや分類タスクに適しているか?

主な発見

  • 数値的データと複素数符号化された名目的データの両方を用いた分類では、90%の精度を達成し、純粋に数値的データまたは任意の符号化法を用いた手法と比較して顕著に優れた性能を示した。
  • 複素数符号化された名目的データのみを用いた手法でも80%の精度に達した。これは、名目的データに内在する頻度とカテゴリ構造が、意味のある予測情報を有することを示している。
  • 対照的に、純粋に数値的データに依存した分類では、70%の閾値においてたった12%の精度にとどまり、名目的データの構造を無視する手法の限界が浮き彫りになった。
  • 複素数符号化の導入により、従来のワンホットエンコーディングと比較して、名目的特徴量の有効次元が低減された。これは、高次元設定においても潜在的な利点を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。