[논문 리뷰] Automatic Labeling for Entity Extraction in Cyber Security
이 논문은 구조화된 취약성 데이터베이스(예: NVD, CVE)를 활용하여 비구조화된 텍스트 기술 설명을 자동으로 레이블링함으로써 대규모 고품질의 사이버보안 엔티티 추출 학습 데이터를 자동으로 생성하는 방법을 제안한다. 이 자동 레이블링 코퍼스를 기반으로 평균화된 퍼셉트론 알고리즘을 사용한 최대 엔트로피 모델은 도메인 특화 엔티티에서 거의 완벽한 성능(F1 > 99%)을 달성하였으며, 학습 시간은 17초 이내로 이전 수작업 레이블링 방법보다 뚜렷이 뛰어나다.
Timely analysis of cyber-security information necessitates automated information extraction from unstructured text. While state-of-the-art extraction methods produce extremely accurate results, they require ample training data, which is generally unavailable for specialized applications, such as detecting security related entities; moreover, manual annotation of corpora is very costly and often not a viable solution. In response, we develop a very precise method to automatically label text from several data sources by leveraging related, domain-specific, structured data and provide public access to a corpus annotated with cyber-security entities. Next, we implement a Maximum Entropy Model trained with the average perceptron on a portion of our corpus ($\sim$750,000 words) and achieve near perfect precision, recall, and accuracy, with training times under 17 seconds.
연구 동기 및 목표
- 사이버보안 엔티티 추출을 위한 대규모 도메인 특화 학습 데이터의 부족이 강화 학습 성능을 저해한다는 문제를 해결하기 위해.
- 보안 데이터베이스에서 유래한 관련 구조화된 데이터를 활용하여 비구조화된 텍스트(예: 블로그 게시물, 뉴스 기사)를 자동으로 레이블링할 수 있는 자동화되고 확장 가능한 방법을 개발하기 위해.
- 학습 및 벤치마킹을 위한 공개 가능한 고품질의 사이버보안 엔티티 코퍼스를 구축하기 위해.
- 대규모 자동 생성 학습 데이터가 보안 관련 텍스트에서 엔티티 추출 성능을 최첨단 수준으로 향상시킬 수 있음을 입증하기 위해.
- 변화하는 사이버보안 보고서의 언어 트렌드에 실시간으로 적응할 수 있는 효율적인 엔티티 추출 시스템을 가능하게 하기 위해.
제안 방법
- 구조화된 사이버보안 데이터베이스(NVD, CVE, OSVDB)를 금본 기준으로 삼아 관련된 비구조화된 텍스트 기술 설명을 자동으로 레이블링한다.
- 문자열 매칭 및 히우리스틱을 통해 구조화된 데이터의 필드(예: 취약성 이름, CVE ID, 소프트웨어 이름)를 비구조화된 텍스트 내 해당 엔티티에 매핑한다.
- 15,000개 이상의 NVD 기술 설명에서 유래한 대규모 공개 코퍼스를 구성하여 약 750,000단어의 자동 레이블링된 사이버보안 텍스트를 확보한다.
- 순서 분류를 위한 게리틱 디코딩을 사용한 평균화된 퍼셉트론 알고리즘으로 최대 엔트로피 모델을 학습시킨다.
- 엔티티 경계와 도메인 특화 레이블(예: 'VULN', 'SOFTWARE', 'CVE_ID')을 표현하기 위해 IOB 태깅 체계를 사용한다.
- 표준 NLP 메트릭(정밀도, 재현도, F1, 정확도, 증가하는 데이터 크기에서의 학습 시간)을 사용해 성능을 평가한다.
실험 결과
연구 질문
- RQ1보안 데이터베이스에서 유래한 구조화된 데이터가 사이버보안 엔티티 추출을 위한 비구조화된 텍스트 자동 레이블링에 효과적으로 활용될 수 있는가?
- RQ2자동 레이블링된 학습 데이터는 소규모 수작업 레이블링 코퍼스에 비해 사이버보안 NER에서 뚜렷이 향상된 성능을 달성할 수 있는가?
- RQ3자동 레이블링된 학습 데이터의 양이 증가함에 따라 모델 성능은 어떻게 변화하는가?
- RQ4평균화된 퍼셉트론과 같은 효율적인 학습 알고리즘이 대규모 사이버보안 텍스트에서 최소한의 학습 시간으로 높은 정확도를 달성할 수 있는가?
- RQ5자동 레이블링 방법은 새로운 보안 공개 정보에 대해 지속적이고 실시간으로 레이블링을 지원할 수 있을 정도로 강건하고 확장 가능한가?
주요 결과
- 자동 레이블링 방법은 약 15,000개의 레이블링된 NVD 기술 설명을 포함한 공개 가능한 코퍼스를 성공적으로 생성하였으며, 총 약 750,000단어에 이른다.
- 자동 레이블링된 데이터로 학습된 최대 엔트로피 모델은 도메인 특화 엔티티 레이블에서 F1 스코어가 99% 이상을 달성하였으며, 정밀도, 재현도, 정확도 모두 97%를 초과하였다.
- 15,192개의 NVD 기술 설명(75만 단어 이상)을 학습하는 데 평균화된 퍼셉트론 알고리즘을 사용해 17초 미만의 시간이 소요되었다.
- 정밀도, 재현도, F1, 정확도 등의 성능 메트릭이 학습 데이터 크기 증가에 따라 단조롭게 향상되어 강력한 확장성 잠재력을 보였다.
- OpenNLP 구현체는 도메인 특화 레이블링 정확도에서 페라이썬보다 뛰어났으며, 동시에 훨씬 더 빠른 성능을 보였다.
- 자동 레이블링 코퍼스 덕분에 이전 연구를 크게 초월한 성능을 달성하였다. 특히, 수작업 레이블링 코퍼스 크기가 본 연구의 약 1/30에 불과한 Joshi 등의 연구는 F1 = 0.799를 기록한 반면, 본 연구에서는 F1 > 0.99를 달성하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.