Skip to main content
QUICK REVIEW

[논문 리뷰] IoT Device Labeling Using Large Language Models

Bar Meyuhas, Anat Bremler-Barr|arXiv (Cornell University)|2024. 03. 03.
Big Data and Digital Economy인용 수 5
한 줄 요약

본 논문은 네트워크 트래픽에서 얻은 확장된 텍스트 특성과 LLM 기반 제로샷 분류를 활용하여 보지 못한 IoT 공급업체 및 기능을 식별하는 수동형 IoT 라벨링 접근법을 제시하며, 카탈로그를 자동으로 업데이트하는 메커니즘을 갖는다.

ABSTRACT

The IoT market is diverse and characterized by a multitude of vendors that support different device functions (e.g., speaker, camera, vacuum cleaner, etc.). Within this market, IoT security and observability systems use real-time identification techniques to manage these devices effectively. Most existing IoT identification solutions employ machine learning techniques that assume the IoT device, labeled by both its vendor and function, was observed during their training phase. We tackle a key challenge in IoT labeling: how can an AI solution label an IoT device that has never been seen before and whose label is unknown? Our solution extracts textual features such as domain names and hostnames from network traffic, and then enriches these features using Google search data alongside catalog of vendors and device functions. The solution also integrates an auto-update mechanism that uses Large Language Models (LLMs) to update these catalogs with emerging device types. Based on the information gathered, the device's vendor is identified through string matching with the enriched features. The function is then deduced by LLMs and zero-shot classification from a predefined catalog of IoT functions. In an evaluation of our solution on 97 unique IoT devices, our function labeling approach achieved HIT1 and HIT2 scores of 0.7 and 0.77, respectively. As far as we know, this is the first research to tackle AI-automated IoT labeling.

연구 동기 및 목표

  • 실시간 보안 및 관측 설정에서 보지 못한 IoT 기기를 라벨링하는 문제를 해결한다.
  • 검색 결과를 통해 확장된 트래픽의 텍스트 특성(도메인, 호스트네임, TLS 발급자, OUI, 사용자 에이전트)을 활용한다.
  • 확장된 특징에 대한 문자열 매칭으로 공급업체를 식별하고 제로샷 LLM 분류를 통해 기능을 추론한다.
  • 모델 재학습 없이 새로운 기기 유형에 대해 카탈로그 업데이트를 가능하게 한다.
  • 레이블링 결정에 대한 설명을 제공하여 사람의 검증을 지원한다.

제안 방법

  • IoT 기기의 네트워크 트래픽에서 텍스트 특성을 추출한다 (도메인, 호스트네임, TLS 발급자, OUI, 사용자 에이전트).
  • SerpAPI를 통해 Google 검색 결과를 질의하여 각 특성 값에 대한 상위-k 설명을 얻어 특징을 확장한다.
  • 확장된 특징을 공급업체 카탈로그와 문자열 매칭하여 공급업체를 식별한다.
  • 공급업체별 또는 전체 기능 카탈로그를 사용한 LLM(Roberta)의 제로샷 분류로 기능을 식별한다.
  • 특성 유형 가중치를 사용하여 특징 간 신뢰도 점수를 합산하고 최종 라벨을 선택하며 타당성을 제시한다.
  • 새로운 기기 유형이 등장함에 따라 카탈로그 업데이트를 통해 업데이트될 수 있는 오프라인의 수동 라벨링 프로세스를 사용한다.
Figure 1 : Example of Features for the SmartThing Hub: First, we present the features derived from the traffic, followed by a sample of the enriched features (the color correlates between the feature and the enriched feature). Words relevant to the vendor label decision are highlighted in bold, and
Figure 1 : Example of Features for the SmartThing Hub: First, we present the features derived from the traffic, followed by a sample of the enriched features (the color correlates between the feature and the enriched feature). Words relevant to the vendor label decision are highlighted in bold, and

실험 결과

연구 질문

  • RQ1확장된 텍스트 특성을 사용하여 보지 못한 IoT 기기를 공급업체 및 기능 측면에서 얼마나 효과적으로 라벨링할 수 있는가?
  • RQ2다양한 특징 유형과 확장으로 라벨링 정확도에 미치는 영향은 무엇인가?
  • RQ3제로샷 LLM 분류가 확장된 특징을 IoT 기능에 견고하게 매핑할 수 있는가?
  • RQ4새로운 기기 유형에 대한 라벨링 정확도를 유지하는 카탈로그 업데이트의 효율성은 어느 정도인가?

주요 결과

  • 확장된 특징과 문자열 매칭을 활용한 공급업체 라벨링은 HIT1 = 0.86 및 HIT2 = 0.89를 달성한다.
  • 확장된 특징에 대해 Roberta를 사용한 기능 라벨링은 HIT1 = 0.70 및 HIT2 = 0.77을 달성한다.
  • OUI 기반 공급업체 식별은 더 정확하지 않은 편이며 (0.64 HIT1); 더 풍부한 텍스트 확장이 라벨링을 향상시킨다.
  • 55개 공급업체의 97개 고유 기기 및 21개 기능에 걸쳐 이 접근법은 보이지 않는 기기에 대해 강한 성능을 보인다.
  • 제로샷 분류를 통해 모델 재훈련 없이 기능 카탈로그를 업데이트할 수 있다.
  • 확장된 특징(Domains, Hostname, TLS, User-Agents, OUI)은 정확도에 다르게 기여하며, Domains+Hostname+TLS+User-Agents+OUI가 공급업체 라벨링에 최상의 결과를 제공한다.
Figure 2 : A schematic illustration of our IoT labeling solution. First, features are being extracted and then enriched. Second, we perform our vendor and function models labeling. The system’s output is label, confidence and justification for each device.
Figure 2 : A schematic illustration of our IoT labeling solution. First, features are being extracted and then enriched. Second, we perform our vendor and function models labeling. The system’s output is label, confidence and justification for each device.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.