QUICK REVIEW

[논문 리뷰] A Noise Addition Scheme in Decision Tree for Privacy Preserving Data Mining

Mohammad Ali Kadampur, Durvasula V. L. N. Somayajulu|arXiv (Cornell University)|2010. 01. 20.

Privacy-Preserving Technologies in Data참고 문헌 14인용 수 27

한 줄 요약

이 논문은 원본 데이터의 의사결정나무 구조를 분석한 후 수치형 속성을 훼손하여 의사결정나무 기반 데이터 마이닝에서의 프라이버시를 보존하기 위한 노이즈 추가 기법을 제안한다. 이 방법은 오염된 데이터가 원본과 유사한 의사결정나무를 생성하도록 보장하여, 제3자 분석을 위한 유티리티를 손상시키지 않은 채 개인의 프라이버시를 보호한다.

ABSTRACT

Data mining deals with automatic extraction of previously unknown patterns from large amounts of data. Organizations all over the world handle large amounts of data and are dependent on mining gigantic data sets for expansion of their enterprises. These data sets typically contain sensitive individual information, which consequently get exposed to the other parties. Though we cannot deny the benefits of knowledge discovery that comes through data mining, we should also ensure that data privacy is maintained in the event of data mining. Privacy preserving data mining is a specialized activity in which the data privacy is ensured during data mining. Data privacy is as important as the extracted knowledge and efforts that guarantee data privacy during data mining are encouraged. In this paper we propose a strategy that protects the data privacy during decision tree analysis of data mining process. We propose to add specific noise to the numeric attributes after exploring the decision tree of the original data. The obfuscated data then is presented to the second party for decision tree analysis. The decision tree obtained on the original data and the obfuscated data are similar but by using our method the data proper is not revealed to the second party during the mining process and hence the privacy will be preserved.

연구 동기 및 목표

제3자와 데이터를 공유할 때 의사결정나무 마이닝 과정에서 발생하는 프라이버시 泄露 문제를 해결하기 위해.
수치형 속성에 포함된 민감한 개인 정보가 데이터 마이닝 과정에서 드러나지 않도록 보장하기 위해.
원본 데이터와 오염된 데이터 기반 의사결정나무 간의 구조 유사성을 유지하기 위해.
신뢰할 수 있는 제3자 없이도 실용적인 프라이버시 보존 대안을 제공하기 위해.

제안 방법

먼저 원본 데이터셋에 대해 의사결정나무를 구축하여 그 구조를 분석한다.
의사결정나무의 분할 기준과 속성 분포를 바탕으로 수치형 속성에 노이즈를 추가한다.
노이즈는 전체 의사결정나무 구조를 유지하면서도 개별 데이터 포인트를 은폐하도록 校정된다.
오염된 데이터셋을 제2자에게 공유하여 의사결정나무를 구축하게 하며, 프라이버시를 보장한다.
노이즈가 추가된 데이터로부터 유도된 의사결정나무는 원본과 유사하게 형성되어 분석 유티리티를 유지한다.
원본 나무의 구조적 통찰을 활용하여 노이즈 추가를 이끌어내어 원시 데이터가 제2자에게 폭 lộ되지 않도록 한다.

실험 결과

연구 질문

RQ1모델 정확도를 크게 떨어뜨리지 않으면서 의사결정나무 마이닝에서 프라이버시를 어떻게 보존할 수 있는가?
RQ2원본과 오염된 데이터 기반 의사결정나무 간의 구조 유사성을 유지하는 데 효과적인 노이즈 추가 전략은 무엇인가?
RQ3제2자가 원시 민감한 속성을 접촉하지 않고도 오염된 데이터에서 의미 있는 데이터 마이닝을 수행할 수 있는가?
RQ4제안된 방법이 데이터셋 내 개별 레코드의 재식별 가능성을 어느 정도 차단하는가?
RQ5노이즈를 효과적으로 추가하여 프라이버시를 확보하면서도 의사결정나무 모델의 유티리티를 유지할 수 있는 방법은 무엇인가?

주요 결과

오염된 데이터 기반으로 구축된 의사결정나무는 원본 데이터 기반 의사결정나무와 구조적으로 유사하다.
노이즈 추가 기법은 수치형 속성에 포함된 민감한 개인 정보의 노출을 효과적으로 방지한다.
제2자에 의한 후속 분석을 위해 의사결정나무의 유티리티를 높게 유지한다.
이 방법은 제2자에게 원시 데이터를 폭 lộ하지 않아 프라이버시를 보장한다.
원본과 오염된 의사결정나무 간의 유사성은 이 방법이 프라이버시와 유티리티의 상호보완적 조건을 효과적으로 달성함을 확인한다.
데이터 공유가 필요하지만 프라이버시를 통제된 훼손을 통해 보존해야 하는 상황에서 이 기법은 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.