Skip to main content
QUICK REVIEW

[論文レビュー] IoT Device Labeling Using Large Language Models

Bar Meyuhas, Anat Bremler-Barr|arXiv (Cornell University)|Mar 3, 2024
Big Data and Digital Economy被引用数 5
ひとこと要約

この論文は、豊富なテキスト特徴とLLM搭載のゼロショット分類を用いた受動的IoTラベリング手法を提案し、未知のIoTベンダーと機能を識別し、カタログを自動更新する機構を備える。

ABSTRACT

The IoT market is diverse and characterized by a multitude of vendors that support different device functions (e.g., speaker, camera, vacuum cleaner, etc.). Within this market, IoT security and observability systems use real-time identification techniques to manage these devices effectively. Most existing IoT identification solutions employ machine learning techniques that assume the IoT device, labeled by both its vendor and function, was observed during their training phase. We tackle a key challenge in IoT labeling: how can an AI solution label an IoT device that has never been seen before and whose label is unknown? Our solution extracts textual features such as domain names and hostnames from network traffic, and then enriches these features using Google search data alongside catalog of vendors and device functions. The solution also integrates an auto-update mechanism that uses Large Language Models (LLMs) to update these catalogs with emerging device types. Based on the information gathered, the device's vendor is identified through string matching with the enriched features. The function is then deduced by LLMs and zero-shot classification from a predefined catalog of IoT functions. In an evaluation of our solution on 97 unique IoT devices, our function labeling approach achieved HIT1 and HIT2 scores of 0.7 and 0.77, respectively. As far as we know, this is the first research to tackle AI-automated IoT labeling.

研究の動機と目的

  • リアルタイムのセキュリティおよび observability 設定における未知のIoTデバイスのラベリング課題に対処する。
  • トラフィック(ドメイン、ホスト名、TLS発行者、OUI、ユーザーエージェント)から得られるテキスト特徴を、検索結果で強化される形で活用。
  • 強化された特徴に対して文字列照合によりベンダーを識別し、拡張特徴からLLMのゼロショット分類で機能を推定。
  • モデルを再学習させることなく、新しいデバイス型のカタログ更新を可能にする。
  • 人間の検証を支援するため、ラベリング決定の説明を提供する。

提案手法

  • IoTデバイスのネットワークトラフィックからテキスト特徴を抽出する(ドメイン、ホスト名、TLS発行者、OUI、ユーザーエージェント)。
  • SerpAPIを介してGoogle検索結果を照会し、各特徴値のトップ-k説明を取得して特徴を豊かにする。
  • 拡張特徴をベンダー カタログに対して文字列照合によりベンダーを識別。
  • ベンダー固有のカタログまたは完全な機能カタログを用いたLLM(Roberta)によるゼロショット分類で機能を識別。
  • 特徴タイプの重みを用いて特徴間の信頼度スコアを集約し、最終ラベルと正当化を選択。
  • 新しいデバイス型が出現することで更新可能なオフラインの受動的ラベリングプロセスを使用。
Figure 1 : Example of Features for the SmartThing Hub: First, we present the features derived from the traffic, followed by a sample of the enriched features (the color correlates between the feature and the enriched feature). Words relevant to the vendor label decision are highlighted in bold, and
Figure 1 : Example of Features for the SmartThing Hub: First, we present the features derived from the traffic, followed by a sample of the enriched features (the color correlates between the feature and the enriched feature). Words relevant to the vendor label decision are highlighted in bold, and

実験結果

リサーチクエスチョン

  • RQ1拡張されたテキスト特徴を用いた場合、未知のIoTデバイスのベンダーと機能ラベリングはどれくらい効果的に行えるか?
  • RQ2異なる特徴タイプと強化の影響はラベリングの精度にどう影響するか?
  • RQ3ゼロショットLLM分類は拡張特徴をIoT機能に堅牢にマッピングできるか?
  • RQ4新しいデバイス型のカタログ更新はラベリング精度の維持にどれほど効果的か?

主な発見

  • 拡張特徴と文字列照合を用いたベンダーラベリングは HIT1 = 0.86 および HIT2 = 0.89 を達成。
  • 拡張特徴上でのRobertaによる機能ラベリングは HIT1 = 0.70 および HIT2 = 0.77。
  • OUIベースのベンダー識別は依然として精度が低い(0.64 HIT1);より豊富なテキスト強化によりラベリングが改善される。
  • 55ベンダー、21機能の97個のユニークデバイス全体で、未知デバイスに対して本手法は高い性能を示す。
  • ゼロショット分類によりモデル再学習なしで機能カタログを更新できる。
  • 豊富な特徴(Domains, Hostname, TLS, User-Agents, OUI)は精度に対して異なる寄与をする。ベンダーラベリングにはDomains+Hostname+TLS+User-Agents+OUIが最良の結果を提供。
Figure 2 : A schematic illustration of our IoT labeling solution. First, features are being extracted and then enriched. Second, we perform our vendor and function models labeling. The system’s output is label, confidence and justification for each device.
Figure 2 : A schematic illustration of our IoT labeling solution. First, features are being extracted and then enriched. Second, we perform our vendor and function models labeling. The system’s output is label, confidence and justification for each device.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。