QUICK REVIEW

[論文レビュー] Automatic Labeling for Entity Extraction in Cyber Security

Robert A. Bridges, Corinne L. Jones|arXiv (Cornell University)|Aug 22, 2013

Topic Modeling参考文献 32被引用数 74

ひとこと要約

本論文は、構造化された脆弱性データベース（例：NVD、CVE）を活用して、非構造的なテキスト記述をラベル付けすることで、サイバー・セキュリティ分野のエンティティ抽出のための大規模で高品質なトレーニングデータを自動生成する手法を提案する。この自動ラベル付与されたコーパスを用いて、平均化パーセプトロンでトレーニングされた最大エントロピーモデルは、17秒未塔のトレーニング時間でドメイン固有のエンティティに対してほぼ完璧な性能（F1 > 99%）を達成し、従来の手動ラベル付け手法を著しく上回る。

ABSTRACT

Timely analysis of cyber-security information necessitates automated information extraction from unstructured text. While state-of-the-art extraction methods produce extremely accurate results, they require ample training data, which is generally unavailable for specialized applications, such as detecting security related entities; moreover, manual annotation of corpora is very costly and often not a viable solution. In response, we develop a very precise method to automatically label text from several data sources by leveraging related, domain-specific, structured data and provide public access to a corpus annotated with cyber-security entities. Next, we implement a Maximum Entropy Model trained with the average perceptron on a portion of our corpus ($\sim$750,000 words) and achieve near perfect precision, recall, and accuracy, with training times under 17 seconds.

研究の動機と目的

サイバー・セキュリティ分野のエンティティ抽出のための大規模でドメイン特化されたトレーニングデータの不足が、教師あり学習の性能を制限しているという問題に対処すること。
関連する構造化データ（セキュリティデータベースから）を用いて、非構造的テキスト（例：ブログ投稿、ニュース）を自動でスケーラブルにラベル付けする手法を開発すること。
トレーニングやベンチマークに使用可能な、公開可能な高品質なサイバー・セキュリティエンティティコーパスを構築すること。
大規模な自動生成トレーニングデータが、セキュリティ関連テキストにおけるエンティティ抽出の最先端の性能を実現できることを実証すること。
サイバー・セキュリティ報告における言語トレンドの変化に、効率的かつリアルタイムで対応できるエンティティ抽出システムの構築を可能にすること。

提案手法

NVD、CVE、OSVDBなどの構造化されたサイバー・セキュリティデータベースをゴールドスタンダードとして、関連する非構造的テキスト記述を自動ラベル付けする。
文字列マッチングとヒューリスティクスを用いて、構造化データのフィールド（例：脆弱性名、CVE ID、ソフトウェア名）を非構造的テキスト内の対応するエンティティにマッピングする。
15,000件以上のNVD記述（約75万語）から成る、大規模で公開可能な自動ラベル付与済みサイバー・セキュリティテキストコーパスを構築する。
逐次ラベル付けのためのグリーディデコードを用いた平均化パーセプトロンアルゴリズムで、最大エントロピーモデルをトレーニングする。
エンティティの境界とドメイン固有ラベル（例：'VULN'、'SOFTWARE'、'CVE_ID'）を表現するためにIOBタギング方式を採用する。
標準的なNLP指標（精度、再現率、F1、正解率、トレーニング時間）を用いて、増加するデータサイズにおける性能を評価する。

実験結果

リサーチクエスチョン

RQ1セキュリティデータベースからの構造化データを、サイバー・セキュリティ分野のエンティティ抽出のための非構造的テキストを自動ラベル付けするために効果的に利用できるか？
RQ2自動ラベル付けされたトレーニングデータは、小規模な手動ラベル付けコーパスに比べて、サイバー・セキュリティNERで顕著に優れた性能を達成できるか？
RQ3自動ラベル付けされたトレーニングデータの量が増加するにつれて、モデルの性能はどのように変化するか？
RQ4平均化パーセプトロンのような効率的なトレーニングアルゴリズムは、大規模なサイバー・セキュリティテキストに対して、最小限のトレーニング時間で高い精度を達成できるか？
RQ5自動ラベル付け手法は、新規のセキュリティ漏洩報告を継続的かつリアルタイムでラベル付けできるほど、頑健でスケーラブルか？

主な発見

自動ラベル付け手法により、15,000件を超えるラベル付与済みNVD記述（約75万語）から成る公開可能なコーパスが正常に生成された。
自動ラベル付けデータでトレーニングされた最大エントロピーモデルは、ドメイン固有のエンティティラベルでF1スコアが99%を超えた。精度、再現率、正解率はいずれも97%を超えた。
15,192件のNVD記述（75万語以上）を平均化パーセプトロンアルゴリズムでトレーニングしたところ、17秒未塔で完了した。
精度、再現率、F1、正解率の指標が、トレーニングデータ量の増加に伴い単調に向上した。これは強力なスケーラビリティを示している。
OpenNLPの実装は、ドメイン固有のラベル付け精度でPythonを上回った一方、著しく高速であった。
自動ラベル付けコーパスにより、先行研究（Joshi et al.の手動ラベル付けコーパス、サイズは約1/30）のF1 = 0.799に比べ、F1 > 0.99という著しい性能向上が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。