QUICK REVIEW

[論文レビュー] Content-based data leakage detection using extended fingerprinting

Yuri Shapira, Bracha Shapira|arXiv (Cornell University)|Feb 8, 2013

Advanced Malware Detection Techniques参考文献 38被引用数 25

ひとこと要約

本稿では、ソートされたkスキップnグラムに基づく拡張型フィンガープrintを用いた、強化されたコンテンツベースのデータ漏洩れ検出手法を提案する。この手法は、核心的な機密内容を分離することで、非機密テキストによる誤検出を低減し、再表現や新しい文書の漏洩に対してより耐性を持つようになる。その結果、意図的なデータ抜き取り事案の検出が向上する。

ABSTRACT

Protecting sensitive information from unauthorized disclosure is a major concern of every organization. As an organizations employees need to access such information in order to carry out their daily work, data leakage detection is both an essential and challenging task. Whether caused by malicious intent or an inadvertent mistake, data loss can result in significant damage to the organization. Fingerprinting is a content-based method used for detecting data leakage. In fingerprinting, signatures of known confidential content are extracted and matched with outgoing content in order to detect leakage of sensitive content. Existing fingerprinting methods, however, suffer from two major limitations. First, fingerprinting can be bypassed by rephrasing (or minor modification) of the confidential content, and second, usually the whole content of document is fingerprinted (including non-confidential parts), resulting in false alarms. In this paper we propose an extension to the fingerprinting approach that is based on sorted k-skip-n-grams. The proposed method is able to produce a fingerprint of the core confidential content which ignores non-relevant (non-confidential) sections. In addition, the proposed fingerprint method is more robust to rephrasing and can also be used to detect a previously unseen confidential document and therefore provide better detection of intentional leakage incidents.

研究の動機と目的

従来のフィンガープrint技術が非機密コンテンツによる誤検出を引き起こすという限界を是正すること。
既存手法が機密コンテンツの再表現や微小な変更に対して脆弱であるという問題を克服すること。
元のデータベースに存在しない未確認の機密文書からの漏洩を検出可能とするようにすること。
より耐性があり、正確性の高いコンテンツベースのフィンガープリント技術を開発し、データ漏洩れ検出の正確性を向上させること。

提案手法

本手法は、機密コンテンツから抽出するフィンガープリントに、ソートされたkスキップnグラムを用いる。これにより、関連性のある機密セグメントにのみ焦点を当てる。
ドキュメント内の非関連または非機密セクションを除外することで、核心的な機密コンテンツを分離する前処理ステップを適用する。
kスキップnグラムをソートすることで、語順の変更や再表現に対しても耐性が向上する。
機密コンテンツが言い換えられたり、わずかに変更されたりしても、マッチングが可能になる。
既知の機密コンテンツパターンのデータベースと照合することで、未知の機密文書の検出を可能にする。
非機密部分をフィンガープリント処理から除外することで、誤検出を低減するようにシステムを設計する。

実験結果

リサーチクエスチョン

RQ1非機密コンテンツを分析から除外することで、誤検出を低減できるフィンガープリント手法を設計できるか？
RQ2機密コンテンツの再表現や微小な変更に対して、どのようにフィンガープリントを耐性性を高められるか？
RQ3元のデータベースにない未確認の機密文書からの漏洩を検出できるか？
RQ4従来のフィンガープリントと比較して、ソートされたkスキップnグラムの使用が検出正確性をどの程度向上させるか？
RQ5本手法は、意図的な漏洩事案の再検出率を向上させる一方で、高い正確性を維持できるか？

主な発見

非機密コンテンツをフィンガープリント処理から除外することで、本手法は誤検出を顕著に低減し、検出の正確性が向上した。
ソートされたkスキップnグラムの使用により、再表現や微小なテキスト変更に対する耐性が向上した。
構造的・意味的類似性を同定することで、以前に見たことのない機密文書の検出が可能になった。
機密コンテンツが言い換えられたり、変更されたりしても、本手法は高い検出正確性を維持した。
従来のフィンガープリント手法と比較して、意図的なデータ漏洩れ事案の同定において、本手法は改善された性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。