QUICK REVIEW

[논문 리뷰] Discovering Signals from Web Sources to Predict Cyber Attacks

Palash Goyal, K. S. M. Tozammel Hossain|arXiv (Cornell University)|2018. 06. 08.

Network Security and Intrusion Detection참고 문헌 27인용 수 25

한 줄 요약

이 논문은 공개 웹 소스—예를 들어 소셜 미디어, 다크 웹 포럼, 취약성 데이터베이스—에서 유래한 외부 신호를 활용하여 표적 공격을 예측하는 기계학습 프레임워크를 제안한다. 자동회귀 모델과 게이트드 순환 단위(GRUs)를 악성 소프트웨어, 악성 이메일, 악성 대상에 대한 시계열 형태의 사이버 관련 용어 빈도와 결합함으로써, 예측 정확도가 크게 향상됨을 입증한다. 이는 다양한 온라인 소스에서 유래한 조직별 외부 신호가 예측 정확도 향상에 기여함을 시사한다.

ABSTRACT

Cyber attacks are growing in frequency and severity. Over the past year alone we have witnessed massive data breaches that stole personal information of millions of people and wide-scale ransomware attacks that paralyzed critical infrastructure of several countries. Combating the rising cyber threat calls for a multi-pronged strategy, which includes predicting when these attacks will occur. The intuition driving our approach is this: during the planning and preparation stages, hackers leave digital traces of their activities on both the surface web and dark web in the form of discussions on platforms like hacker forums, social media, blogs and the like. These data provide predictive signals that allow anticipating cyber attacks. In this paper, we describe machine learning techniques based on deep neural networks and autoregressive time series models that leverage external signals from publicly available Web sources to forecast cyber attacks. Performance of our framework across ground truth data over real-world forecasting tasks shows that our methods yield a significant lift or increase of F1 for the top signals on predicted cyber attacks. Our results suggest that, when deployed, our system will be able to provide an effective line of defense against various types of targeted cyber attacks.

연구 동기 및 목표

공개 가능한 웹 소스에서 임박한 사이버 공격의 예측 신호를 자동으로 식별하는 시스템을 개발하는 것.
과거 공격 데이터 외에 외부 시계열 신호를 기계학습 모델에 통합하여 사이버 위협 예측 정확도를 향상시키는 것.
다양한 유형의 사이버 공격에 대해 서로 다른 웹 기반 신호가 예측 성능에 미치는 영향을 정량화하는 것.
온라인 활동에서 유래한 조직별로 특화된 고영향도 신호를 식별함으로써 사이버 방어에 실질적인 통찰을 제공하는 것.
사전 대응 가능한 사이버 보안 정책 및 사고 완화를 지원하는 조기 경보 시스템을 구현하는 것.

제안 방법

다양한 공개 웹 소스에서 실시간 데이터를 수집함—다크 웹 포럼, 소셜 미디어, 블로그, 취약성 추적 시스템 포함.
각 소스에서 사이버 보안 관련 关련 키워드(예: '제로데이', '랜섬웨어')의 일일 발생 빈도 시계열을 추출하여 외부 신호를 구성함.
과거 공격 데이터와 외부 신호를 모두 포함하는 자동회귀 모델(ARIMA 및 ARIMAX)을 적용하여 예측 수행.
공격 패턴과 외부 신호 시계열의 시간적 의존성을 모델링하기 위해 게이트드 순환 신경망(GRUs)을 활용함.
세부 공격 유형(엔드포인트 악성 소프트웨어, 악성 이메일, 악성 대상)을 포함한 두 개 조직의 실제 데이터를 기반으로 모델을 훈련 및 평가함.
다양한 조직과 공격 유형에서 개별 및 병합된 신호의 예측 능력을 평가하기 위해 신호 융합 기법을 적용함.

실험 결과

연구 질문

RQ1어느 공개 웹 소스에서 향후 사이버 공격을 예측할 수 있는 신호를 찾을 수 있는가?
RQ2소셜 미디어, 다크 웹, 블로그에서 유래한 외부 시계열 신호가 과거 공격 데이터만을 사용하는 모델 대비 F1 스코어에 어떤 영향을 미치는가?
RQ3가장 예측력 있는 신호가 다양한 조직과 공격 유형 간에 다를 수 있는가?
RQ4외부 신호를 포함할 경우, 딥 러닝 모델인 GRUs가 전통적인 자동회귀 모델(예: ARIMA)보다 사이버 위협 예측에서 더 우수한 성능을 보일 수 있는가?
RQ5다양한 신호의 조합은 시간이 지남에 따라 예측의 강건성과 정확도를 어느 정도 향상시키는가?

주요 결과

웹 소스에서 유래한 외부 신호 통합이 사이버 공격 예측의 F1 스코어를 유의미하게 향상시키며, 엔드포인트 악성 소프트웨어, 악성 이메일, 악성 대상의 세 가지 공격 유형 모두에서 명확한 성능 향상이 관찰됨.
조직별로 특화된 신호가 일반적인 신호보다 더 높은 예측 능력을 보여, 시스템이 각 조직의 고유한 위협 프로파일에 적응 가능함을 시사함.
다크 웹 포럼과 소셜 미디어에서 유래한 신호가 제로데이 공격 및 랜섬웨어 캠페인 예측에서 상위 성능를 기록함.
외부 신호를 포함한 경우, GRU 기반 모델이 전통적인 자동회귀 모델(예: ARIMA)보다 우수한 성능을 보이며, 비선형 시간적 패턴을 모델링하는 데서 그 가치를 입증함.
가장 뛰어난 성능을 보인 신호는 조직과 공격 유형에 따라 달라지며, 이는 효과적인 조기 경보 시스템이 특정 위협 환경에 맞게 맞춤화되어야 함을 시사함.
다양한 고성능 신호를 융합하는 방식이 주간 수준의 예측 정확도 향상에 기여함을 보여, 앙상블 신호 사용을 통한 강건성 향상 잠재력이 있음.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.