QUICK REVIEW

[논문 리뷰] Domain Knowledge Aided Explainable Artificial Intelligence for Intrusion Detection and Response

Sheikh Md. Rabiul Islam, William Eberle|arXiv (Cornell University)|2019. 11. 21.

Anomaly Detection Techniques and Applications인용 수 30

한 줄 요약

이 논문은 기계학습 파이프라인에 CIA 삼각법(기밀성, 무결성, 가용성)을 통합하여 도메인 지식을 보완한 설명 가능 AI 모델을 제안한다. C, I, A로 특징을 단순화함으로써 높은 설명 가능성, 빠른 추론(나이브 베이즈는 SVM보다 444배 빠름), 그리고 알려지지 않은 공격에 대한 강력한 일반화 성능을 달성하였으며, 미리보지 않은 데이터에서 몇 가지 공격 유형에 대해 100% 탐지율을 기록하였다.

ABSTRACT

Artificial Intelligence (AI) has become an integral part of modern-day security solutions for its ability to learn very complex functions and handling "Big Data". However, the lack of explainability and interpretability of successful AI models is a key stumbling block when trust in a model's prediction is critical. This leads to human intervention, which in turn results in a delayed response or decision. While there have been major advancements in the speed and performance of AI-based intrusion detection systems, the response is still at human speed when it comes to explaining and interpreting a specific prediction or decision. In this work, we infuse popular domain knowledge (i.e., CIA principles) in our model for better explainability and validate the approach on a network intrusion detection test case. Our experimental results suggest that the infusion of domain knowledge provides better explainability as well as a faster decision or response. In addition, the infused domain knowledge generalizes the model to work well with unknown attacks, as well as opens the path to adapt to a large stream of network traffic from numerous IoT devices.

연구 동기 및 목표

AI 기반 침입 탐지 시스템(IDS)에서 설명 가능성의 심각한 부족을 해결함으로써 신뢰도 향상과 인간이 개입하는 반응 시간 단축을 도모한다.
기존의 보안 도메인 지식(CIA 삼각법)을 학습 과정에 통합하여 모델의 설명 가능성과 의사결정 투명성을 향상시킨다.
원시 데이터 패턴이 아닌 의미론적 원칙을 활용하여 알려지지 않은 공격 또는 제로데이 공격에 대한 일반화 능력을 향상시킨다.
모델 복잡도를 줄임으로써 높은 탐지 정확도를 유지하면서도 반응 시간을 가속화한다.
경량이고 해석 가능한 모델을 통해 고속도의 IoT 및 빅데이터 네트워크 트래픽 환경에서의 확장 가능한 배포를 가능하게 한다.

제안 방법

침입 탐지 파이프라인의 특징 공학 단계에 CIA 삼각법(기밀성, 무결성, 가용성)을 도메인 지식으로 통합한다.
기본적으로 세 가지 유도된 특징인 C, I, A로 구성된 최소한의 특징 집합을 구성하며, 각각은 각 영역에서의 침해 정도를 나타낸다.
빠른 처리 속도와 높은 설명 가능성을 확보하기 위해 감소된 특징 집합에 나이브 베이즈(NB)를 적용하여 대량의 트래픽 스트림에 실시간 분석을 가능하게 한다.
CICIDS2017 데이터셋을 사용하여 성능을 검증하였으며, DDoS, PortScan, SQLi, 봇넷 등 총 15종의 일반적인 공격 유형을 포함한다.
다양한 알고리즘(RF, ET, GB, ANN, SVM)과 특징 설정 간의 성능 비교를 위해 통계 분석(예: 혼동 행렬, F1-스코어)을 수행한다.
테스트 세트에서 이전에 보지 못한 공격 유형에 대한 탐지율을 측정하여 알려지지 않은 공격에 대한 일반화 능력을 평가한다.

실험 결과

연구 질문

RQ1CIA 삼각법을 도메인 지식으로 통합함으로써 AI 기반 침입 탐지 모델의 설명 가능성은 향상될 수 있는가?
RQ2C, I, A로만 특징 공간을 축소함으로써 탐지 정확도를 희생시키지 않고도 모델의 설명 가능성은 향상될 수 있는가?
RQ3도메인 보강 특징을 갖춘 가벼운 모델인 나이브 베이즈는 복잡한 모델과 비교해도 알려지지 않은 공격을 동일하게 효과적으로 탐지할 수 있는가?
RQ4도메인 지식이 통합된 모델의 실행 시간은 기존의 블랙박스 모델과 비교해 어떻게 되는가?
RQ5도메인 지식 통합이 제로데이 또는 이전에 보지 못한 공격에 대한 일반화 능력을 얼마나 향상시키는가?

주요 결과

CIA 기반 특징을 사용한 나이브 베이즈 모델은 미리보지 않은 테스트 세트에서 14개의 공격 유형 중 7개에 대해 100% 탐지율을 기록하였으며, DDoS, PortScan, SSH-Patator를 포함한다.
나이브 베이즈는 SVM보다 444.50배, 기울기 부스팅(GBDT)보다 77.06배 더 빠르게 실행되어 고속 트래픽 스트림의 실시간 분석에 적합하다.
낮은 기초 빈도에도 불구하고, 구성된 특징 설정을 사용할 경우 심장박동(Heartbleed) 및 Web Attack-Sql 인스턴스 모두를 미리보지 않은 세트에서 100% 탐지하였다.
CIA 기반 특징 집합은 DDoS 공격에 대해 83.22%의 탐지율, Web Attack-XSS에 대해선 95.65%의 탐지율을 기록하여 특정 공격 유형에서 다른 모델을 초월하였다.
랜덤 포레스트에 비해 정밀도와 재현율이 낮지만, 도메인 지식 특징을 갖춘 NB 모델은 속도, 설명 가능성, 알려지지 않은 공격에 대한 일반화 능력 간의 최적의 균형을 제공한다.
CIA 원칙의 통합은 모델이 다양한 공격 유형 간에 일반화할 수 있도록 하여, 보안 목표에 대한 의미론적 이해가 새로운 위협에 대한 강건성을 향상시킨다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.