QUICK REVIEW

[논문 리뷰] Content-based data leakage detection using extended fingerprinting

Yuri Shapira, Bracha Shapira|arXiv (Cornell University)|2013. 02. 08.

Advanced Malware Detection Techniques참고 문헌 38인용 수 25

한 줄 요약

이 논문은 정렬된 k-스킵-n-그램 기반으로 확장된 프린팅을 사용하여 개선된 콘텐츠 기반 데이터 泄密 탐지 방법을 제안한다. 핵심 기밀 콘텐츠를 분리함으로써 비기밀 텍스트로 인한 잘못된 경고를 줄이고, 재구성이나 새로운 문서 泄密에 대한 강건성을 높여 의도적인 데이터 유출 사고의 탐지 능력을 향상시킨다.

ABSTRACT

Protecting sensitive information from unauthorized disclosure is a major concern of every organization. As an organizations employees need to access such information in order to carry out their daily work, data leakage detection is both an essential and challenging task. Whether caused by malicious intent or an inadvertent mistake, data loss can result in significant damage to the organization. Fingerprinting is a content-based method used for detecting data leakage. In fingerprinting, signatures of known confidential content are extracted and matched with outgoing content in order to detect leakage of sensitive content. Existing fingerprinting methods, however, suffer from two major limitations. First, fingerprinting can be bypassed by rephrasing (or minor modification) of the confidential content, and second, usually the whole content of document is fingerprinted (including non-confidential parts), resulting in false alarms. In this paper we propose an extension to the fingerprinting approach that is based on sorted k-skip-n-grams. The proposed method is able to produce a fingerprint of the core confidential content which ignores non-relevant (non-confidential) sections. In addition, the proposed fingerprint method is more robust to rephrasing and can also be used to detect a previously unseen confidential document and therefore provide better detection of intentional leakage incidents.

연구 동기 및 목표

기존의 프린팅 기법이 비기밀 콘텐츠로 인한 잘못된 경고 문제를 해결하기 위해 기존의 한계를 해결한다.
기존 방법들이 기밀 콘텐츠의 재구성 또는 미세한 수정에 취약한 점을 극복한다.
기존 데이터베이스에 존재하지 않는 새로운 기밀 문서의 유출도 탐지할 수 있도록 한다. 이는 의도적인 유출 시도 식별을 지원한다.
더 강건하고 정밀한 콘텐츠 기반 프린팅 기법을 개발하여 데이터 泄밀 탐지 정확도를 향상시킨다.

제안 방법

기밀 콘텐츠에서 프린팅을 추출하기 위해 정렬된 k-스킵-n-그램을 사용하며, 관련성 있고 민감한 세그먼트에만 집중한다.
문서의 비관련 또는 비기밀 부분을 제거함으로써 핵심 기밀 콘텐츠를 고립시키는 사전 처리 단계를 적용한다.
k-스킵-n-그램을 정렬하여 어순 변경이나 재구성에 대한 강건성을 향상시킨다.
기밀 콘텐츠가 약간의 수정이나 다듬어진 표현으로 제공되더라도 매칭이 가능하다.
기존에 알려진 민감한 콘텐츠 패tern의 데이터베이스와 비교함으로써 알려지지 않은 기밀 문서의 유출도 탐지할 수 있다.
비기밀 부분을 프린팅 과정에서 제외함으로써 잘못된 경고를 줄이기 위해 설계되어 있다.

실험 결과

연구 질문

RQ1비기밀 콘텐츠를 분석에서 제외함으로써 잘못된 경고를 줄일 수 있는 프린팅 기법을 설계할 수 있는가?
RQ2기밀 콘텐츠의 재구성 또는 미세한 수정에 대해 더 강건한 프린팅 기법은 어떻게 설계할 수 있는가?
RQ3기존 데이터베이스에 존재하지 않는 새로운 기밀 문서의 유출도 탐지할 수 있는가?
RQ4기존 프린팅 기법 대비 정렬된 k-스킵-n-그램의 사용이 탐지 정확도를 얼마나 향상시키는가?
RQ5의도적인 유출 사고에 대해 재현율을 높이면서도 정밀도를 유지하는가?

주요 결과

비기밀 콘텐츠를 프린팅에서 제외함으로써 잘못된 경고가 크게 줄어들어 탐지 정밀도가 향상된다.
정렬된 k-스킵-n-그램의 사용으로 재구성이나 미세한 텍스트 수정에 대한 강건성이 향상된다.
기존에 본 적 없는 기밀 문서의 유출을 구조적 및 의미적 유사성 탐지로 탐지할 수 있다.
기밀 콘텐츠가 재구성되거나 약간 수정되어도 탐지 정확도가 유지된다.
기존의 프린팅 기법 대비 의도적인 데이터 유출 사고 탐지 성능이 향상됨을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.