QUICK REVIEW

[논문 리뷰] Automatic Labeling for Entity Extraction in Cyber Security

Robert A. Bridges, Corinne L. Jones|arXiv (Cornell University)|2013. 08. 22.

Topic Modeling참고 문헌 32인용 수 74

한 줄 요약

이 논문은 구조화된 취약성 데이터베이스(예: NVD, CVE)를 활용하여 비구조화된 텍스트 기술 설명을 자동으로 레이블링함으로써 대규모 고품질의 사이버보안 엔티티 추출 학습 데이터를 자동으로 생성하는 방법을 제안한다. 이 자동 레이블링 코퍼스를 기반으로 평균화된 퍼셉트론 알고리즘을 사용한 최대 엔트로피 모델은 도메인 특화 엔티티에서 거의 완벽한 성능(F1 > 99%)을 달성하였으며, 학습 시간은 17초 이내로 이전 수작업 레이블링 방법보다 뚜렷이 뛰어나다.

ABSTRACT

Timely analysis of cyber-security information necessitates automated information extraction from unstructured text. While state-of-the-art extraction methods produce extremely accurate results, they require ample training data, which is generally unavailable for specialized applications, such as detecting security related entities; moreover, manual annotation of corpora is very costly and often not a viable solution. In response, we develop a very precise method to automatically label text from several data sources by leveraging related, domain-specific, structured data and provide public access to a corpus annotated with cyber-security entities. Next, we implement a Maximum Entropy Model trained with the average perceptron on a portion of our corpus ($\sim$750,000 words) and achieve near perfect precision, recall, and accuracy, with training times under 17 seconds.

연구 동기 및 목표

사이버보안 엔티티 추출을 위한 대규모 도메인 특화 학습 데이터의 부족이 강화 학습 성능을 저해한다는 문제를 해결하기 위해.
보안 데이터베이스에서 유래한 관련 구조화된 데이터를 활용하여 비구조화된 텍스트(예: 블로그 게시물, 뉴스 기사)를 자동으로 레이블링할 수 있는 자동화되고 확장 가능한 방법을 개발하기 위해.
학습 및 벤치마킹을 위한 공개 가능한 고품질의 사이버보안 엔티티 코퍼스를 구축하기 위해.
대규모 자동 생성 학습 데이터가 보안 관련 텍스트에서 엔티티 추출 성능을 최첨단 수준으로 향상시킬 수 있음을 입증하기 위해.
변화하는 사이버보안 보고서의 언어 트렌드에 실시간으로 적응할 수 있는 효율적인 엔티티 추출 시스템을 가능하게 하기 위해.

제안 방법

구조화된 사이버보안 데이터베이스(NVD, CVE, OSVDB)를 금본 기준으로 삼아 관련된 비구조화된 텍스트 기술 설명을 자동으로 레이블링한다.
문자열 매칭 및 히우리스틱을 통해 구조화된 데이터의 필드(예: 취약성 이름, CVE ID, 소프트웨어 이름)를 비구조화된 텍스트 내 해당 엔티티에 매핑한다.
15,000개 이상의 NVD 기술 설명에서 유래한 대규모 공개 코퍼스를 구성하여 약 750,000단어의 자동 레이블링된 사이버보안 텍스트를 확보한다.
순서 분류를 위한 게리틱 디코딩을 사용한 평균화된 퍼셉트론 알고리즘으로 최대 엔트로피 모델을 학습시킨다.
엔티티 경계와 도메인 특화 레이블(예: 'VULN', 'SOFTWARE', 'CVE_ID')을 표현하기 위해 IOB 태깅 체계를 사용한다.
표준 NLP 메트릭(정밀도, 재현도, F1, 정확도, 증가하는 데이터 크기에서의 학습 시간)을 사용해 성능을 평가한다.

실험 결과

연구 질문

RQ1보안 데이터베이스에서 유래한 구조화된 데이터가 사이버보안 엔티티 추출을 위한 비구조화된 텍스트 자동 레이블링에 효과적으로 활용될 수 있는가?
RQ2자동 레이블링된 학습 데이터는 소규모 수작업 레이블링 코퍼스에 비해 사이버보안 NER에서 뚜렷이 향상된 성능을 달성할 수 있는가?
RQ3자동 레이블링된 학습 데이터의 양이 증가함에 따라 모델 성능은 어떻게 변화하는가?
RQ4평균화된 퍼셉트론과 같은 효율적인 학습 알고리즘이 대규모 사이버보안 텍스트에서 최소한의 학습 시간으로 높은 정확도를 달성할 수 있는가?
RQ5자동 레이블링 방법은 새로운 보안 공개 정보에 대해 지속적이고 실시간으로 레이블링을 지원할 수 있을 정도로 강건하고 확장 가능한가?

주요 결과

자동 레이블링 방법은 약 15,000개의 레이블링된 NVD 기술 설명을 포함한 공개 가능한 코퍼스를 성공적으로 생성하였으며, 총 약 750,000단어에 이른다.
자동 레이블링된 데이터로 학습된 최대 엔트로피 모델은 도메인 특화 엔티티 레이블에서 F1 스코어가 99% 이상을 달성하였으며, 정밀도, 재현도, 정확도 모두 97%를 초과하였다.
15,192개의 NVD 기술 설명(75만 단어 이상)을 학습하는 데 평균화된 퍼셉트론 알고리즘을 사용해 17초 미만의 시간이 소요되었다.
정밀도, 재현도, F1, 정확도 등의 성능 메트릭이 학습 데이터 크기 증가에 따라 단조롭게 향상되어 강력한 확장성 잠재력을 보였다.
OpenNLP 구현체는 도메인 특화 레이블링 정확도에서 페라이썬보다 뛰어났으며, 동시에 훨씬 더 빠른 성능을 보였다.
자동 레이블링 코퍼스 덕분에 이전 연구를 크게 초월한 성능을 달성하였다. 특히, 수작업 레이블링 코퍼스 크기가 본 연구의 약 1/30에 불과한 Joshi 등의 연구는 F1 = 0.799를 기록한 반면, 본 연구에서는 F1 > 0.99를 달성하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.