Skip to main content
QUICK REVIEW

[論文レビュー] Knowledge Graph for Malware Threat Intelligence

Sharmishtha Dutta, Nidhi Rastogi|arXiv (Cornell University)|Jan 1, 2021
Topic Modeling参考文献 6被引用数 3
ひとこと要約

本論文は、2006年から2021年までの83件の非構造的脅威レポートをもとに、手作業でキュレートされたマルウェア脅威インテリジェンス向けの知識グラフ、TINKERを紹介する。マルウェアオントロジーからインスタンス化されたRDF三元組と、Bratツールによるアノテーションを用いることで、TINKERは隠れた脅威関係の構造的表現、推論、および推論を可能にし、サイバーセキュリティ分野におけるトレンド予測や欠落した事実の発見といった高度な分析を支援する。

ABSTRACT

Cyber threat and attack intelligence information are available in non-standard format from heterogeneous sources. Comprehending them and utilizing them for threat intelligence extraction requires engaging security experts. Knowledge graphs enable converting this unstructured information from heterogeneous sources into a structured representation of data and factual knowledge for several downstream tasks such as predicting missing information and future threat trends. Existing large-scale knowledge graphs mainly focus on general classes of entities and relationships between them. Open-source knowledge graphs for the security domain do not exist. To fill this gap, we've built extsf{TINKER} - a knowledge graph for threat intelligence ( extbf{T}hreat extbf{IN}telligence extbf{K}nowl extbf{E}dge g extbf{R}aph). extsf{TINKER} is generated using RDF triples describing entities and relations from tokenized unstructured natural language text from 83 threat reports published between 2006-2021. We built extsf{TINKER} using classes and properties defined by open-source malware ontology and using hand-annotated RDF triples. We also discuss ongoing research and challenges faced while creating extsf{TINKER}.

研究の動機と目的

  • サイバーセキュリティ分野におけるオープンソースで標準化された知識グラフの不足に対処する。
  • 非構造的かつ多様な脅威インテリジェンスレポートを、意味的に豊富で構造的な知識ベースに変換する。
  • RDF三元組とオントロジーを用いて、マルウェアデータに対する自動推論と推論を可能にする。
  • 脅威予測、悪意あるエンティティの相関、文脈の拡張といった下流タスクを支援する。
  • 既存のセキュリティ標準(例:STIX、TAXII)およびリンクドオープンデータとの相互運用性を促進する。

提案手法

  • 83件の脅威レポート(2006–2021年)をBratアノテーションツールを用いて手作業でアノテートし、エンティティと関係を抽出する。
  • 抽出されたエンティティと関係を、意味的一致性を保つために形式的なマルウェアオントロジーにマッピングする。
  • RDF三元組(主語-述語-目的語)としてのデータ表現を用いることで、機械処理可能な知識表現を実現する。
  • 推論エンジンを用いて、元のレポートに明示的に記載されていない新しい事実や関係を同定する。
  • 事前学習済みNLPモデル(例:Flair、spaCy、Stanford NER)を評価し、Flairがマルウェア関連クラスの抽出において最高の精度を示した。
  • スケーラブルな自動アノテーションを実現するため、文脈ベースの特徴選択と正規表現を用いたインジケーター・オブ・コンプリアンスおよび静的属性のアノテーションを検討した。

実験結果

リサーチクエスチョン

  • RQ1非構造的かつ多様な脅威インテリジェンスレポートを、どのように体系的かつ構造的で機械処理可能な知識グラフに変換できるか?
  • RQ2マルウェア知識グラフにおけるRDF三元組の推論によって、明示的でない潜在的または欠落した脅威関係をどの程度特定できるか?
  • RQ3サイバーセキュリティテキストにおける自動エンティティおよび関係抽出に最も効果的なNLPモデルは何か?
  • RQ4意味的正確性を維持しつつ、大規模な脅威データにまで手作業によるキュレートをスケーリングするにあたり、どのような主な課題が生じるか?
  • RQ5既存のセキュリティオントロジーとリンクドオープンデータを統合することで、文脈の拡張と相互運用性をどのように向上できるか?

主な発見

  • 83件の脅威レポートから約3,000個のRDF三元組が手作業で生成され、TINKER知識グラフの根幹を形成した。
  • Flairは、テストされたNLPモデルの中でマルウェア関連エンティティの同定において最高の精度を示し、自動アノテーションパイプラインの有力候補となった。
  • 最も頻繁にアノテートされたエンティティは、全アノテーションの95%を占めており、主要な脅威インテリジェンスが少数の繰り返し現れる概念に集中していることを示している。
  • TINKERは、元のレポートに明記されていない関係の推論を可能にし、たとえばDUSTMANとZeroCleareの間の共通のTurla Driver Loader(TDL)コンponentsを介した関係を同定した。
  • マルウェアオントロジーとリンクドオープンデータの統合により、意味的豊かさが向上し、将来的な外部知識ベースとの相互運用性を支援する。
  • 継続的な課題として、文書レベルの関係抽出のスケーラビリティと、正確な文脈的関係モデリングが挙げられ、これらは今後の自動化の主なターゲットである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。