Skip to main content
QUICK REVIEW

[論文レビュー] Data Discovery and Anomaly Detection Using Atypicality: Theory

Anders Høst-Madsen, Elyas Sabeti|arXiv (Cornell University)|Sep 10, 2017
Anomaly Detection Techniques and Applications被引用数 1
ひとこと要約

本論文は、データが自らのモデルを用いて典型的なデータモデルよりも効率的に符号化可能である場合に「特異性(atypicality)」として定義される、データ発見および異常検出のための新しい理論的枠組みを提案する。最小記述長(MDL)の原則と汎用的ソース符号化を用い、ビッグデータ内に存在する稀で構造的に特異なシーケンスを検出する。ECG、ゲノム、音声データの実データで成功裏に検証され、微細な異常にも高い感受性を示した。

ABSTRACT

A central question in the era of 'big data' is what to do with the enormous amount of information. One possibility is to characterize it through statistics, e.g., averages, or classify it using machine learning, in order to understand the general structure of the overall data. The perspective in this paper is the opposite, namely that most of the value in the information in some applications is in the parts that deviate from the average, that are unusual, atypical. We define what we mean by 'atypical' in an axiomatic way as data that can be encoded with fewer bits in itself rather than using the code for the typical data. We show that this definition has good theoretical properties. We then develop an implementation based on universal source coding, and apply this to a number of real world data sets.

研究の動機と目的

  • ビッグデータ内に存在する価値があり、稀で構造的に異なったデータを特定するという課題に取り組むこと。平均的または典型的なパターンに注目するのではなく、それらを避ける。
  • 統計的稀少性を越えた、データの内発的構造的独自性を捉える理論的根拠に基づいた「特異性」の定義を構築すること。
  • 下位のデータ構造に関する事前知識がなくても、普遍的かつモデルに依存しない方法でこのような特異的シーケンスを検出すること。
  • 既知の異常が多数の典型的なデータストリームに埋め込まれた実世界のデータセットにおいて、この手法の有効性を実証すること。

提案手法

  • 特異性の公理的定義:シーケンスが自らのモデルで符号化される場合に、典型的なデータモデルで符号化される場合よりも少ないビット数で表現できる場合、そのシーケンスは特異的とみなす。
  • 最小記述長(MDL)の原則を理論的基盤とし、符号長の差を用いて特異性を定量化する。
  • 汎用的ソース符号化法(特にCTWアルゴリズム)を用いて、典型的なモデルと自己モデル化の両方におけるシーケンスの符号長を推定する。
  • 符号長の差(L(n))を時間的にランダムウォークとして可視化し、典型的なパターンから著しく逸脱するセグメントを検出する。
  • 代表的な典型的データ(例:正常なECG、ヒトゲノムDNA)を用いてモデルを学習し、特異的挿入(例:ウイルス性または細菌性DNA、不整脈を示すHRVセグメント)を含むデータをテストする。
  • 累積符号長差を検出統計量として用いる:大きな逸脱は特異的シーケンスを示す。

実験結果

リサーチクエスチョン

  • RQ1統計的稀少性を超えた、固有の構造的独自性を持つデータを捉える理論的で普遍的な特異性の定義を構築できるか?
  • RQ2下位モデルが未知の状況下でも、MDLに基づく符号長差は、実世界のデータ内に既知の特異的シーケンスを信頼性高く検出できるか?
  • RQ3標準的な外れ値検出法では容易に特定できない、微細で複雑な異常(例:不整脈、ウイルス挿入)を同定できるか?
  • RQ4異常が構造的に複雑ではあるが、統計的にあり得ないものではない場合、この手法は特異的シーケンスを効果的に検出できるか?

主な発見

  • 提案された特異性基準は、あるシーケンスが本質的に特異的である確率が1未満であるという理論的要件を満たしており、統計的整合性を保証する。
  • ヒトゲノムDNAに挿入された2キロバイトの肺炎球菌DNA断片で、中間部を除去して検出の難易度を高めた状況でも、正常に検出に成功した。
  • ヒトゲノム配列に埋め込まれたHIV DNA挿入を、符号長差プロットに著しい逸脱を示す形で同定した。
  • ECGデータでは、累積符号長差の著しい逸脱を検出し、心房性不整脈を示すセグメントを局所化した。これは、標準的な指標では容易に分類できない微細な不整脈に対しても有効であった。
  • 符号長差(L(n))のランダムウォークは、すべてのテストデータセットにおいて特異的領域を明確に強調し、本手法の構造的独自性への感受性を確認した。
  • 本手法は、統計的あり得なさに依存するのではなく、内発的構造的逸脱に注目するため、従来の外れ値検出法を上回り、均一分布のデータ内でも意味のある異常を検出可能であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。