[논문 리뷰] SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts
SmartBench는 스마트 홈 이상 탐지 및 설명을 위한 LLM 중심의 최초 벤치마크를 제공하며, 현재 모델들이 맥락 독립 및 맥락 의존 시나리오 전반에서 이상 탐지, 위치 파악 및 귀속에 어려움을 겪고 있음을 보여준다.
Due to the strong context-awareness capabilities demonstrated by large language models (LLMs), recent research has begun exploring their integration into smart home assistants to help users manage and adjust their living environments. While LLMs have been shown to effectively understand user needs and provide appropriate responses, most existing studies primarily focus on interpreting and executing user behaviors or instructions. However, a critical function of smart home assistants is the ability to detect when the home environment is in an anomalous state. This involves two key requirements: the LLM must accurately determine whether an anomalous condition is present, and provide either a clear explanation or actionable suggestions. To enhance the anomaly detection capabilities of next-generation LLM-based smart home assistants, we introduce SmartBench, which is the first smart home dataset designed for LLMs, containing both normal and anomalous device states as well as normal and anomalous device state transition contexts. We evaluate 13 mainstream LLMs on this benchmark. The experimental results show that most state-of-the-art models cannot achieve good anomaly detection performance. For example, Claude-Sonnet-4.5 achieves only 66.1% detection accuracy on context-independent anomaly categories, and performs even worse on context-dependent anomalies, with an accuracy of only 57.8%. More experimental results suggest that next-generation LLM-based smart home assistants are still far from being able to effectively detect and handle anomalous conditions in the smart home environment. Our dataset is publicly available at https://github.com/horizonsinzqs/SmartBench.
연구 동기 및 목표
- 이상 상태를 탐지하고 설명할 수 있는 이상 인식 스마트 홈 어시스턴트의 필요성을 제시한다.
- LLM 평가를 위한 정상 및 이상 디바이스 상태와 상태 전이 맥락을 포함하는 Dedicated 데이터셋 SmartBench를 소개한다.
- 맥락 독립적 및 맥락 의존적 이상 탐지 작업에서 주요 LLM의 성능을 평가한다.
- 더 안전하고 신뢰할 수 있는 스마트 홈 어시스턴트를 개발하기 위한 지표와 분석을 제공한다.
제안 방법
- 두 가지 이상 유형을 정의한다: 맥락 독립적(스냅샷) 및 맥락 의존적(상태 전이 시퀀스).
- 정상 데이터는 실제 스마트 홈 데이터를 사용하고 이상은 GPT-5 기반 생성을 이용한 데이터 파이프라인을 구성하며, 긴 시퀀스에 대한 압축 전략을 적용한다.
- 샘플의 현실성 및 일관성을 보장하기 위한 규정 준수 검증과 시맨틱 체크를 구현한다.
- 고정 온도 0, 맞춤 토큰 한도를 적용하여 13개의 LLM(오픈 및 클로즈드 소스)을 평가한다.
- 탐지, 위치 파악, 설명의 품질을 평가하기 위해 F1, FPR, Anomaly Location(AL) Score, Attribution Consistency(AC) Score를 사용한다.
실험 결과
연구 질문
- RQ1RQ1: LLM이 스마트 홈에서 이상 상태를 얼마나 잘 탐지하는가?
- RQ2RQ2: LLM이 이상 현상의 근본 원인을 분석할 수 있는가?
- RQ3RQ3: 모델 크기가 이상 탐지 성능에 어떤 영향을 미치는가?
- RQ4RQ4: 맥락 압축이 모델 성능에 미치는 영향은 무엇인가?
- RQ5RQ5: 적은 학습 샘플이 이상 탐지 능력 향상에 도움이 될 수 있는가?
주요 결과
| Model | Context-Independent Precision | Context-Independent Recall | Context-Independent F1 | Context-Independent FPR | Context-Independent AL Score | Context-Dependent Precision | Context-Dependent Recall | Context-Dependent F1 | Context-Dependent FPR | Context-Dependent AL Score |
|---|---|---|---|---|---|---|---|---|---|---|
| gemini-3 | 74.2% | 85.2% | 79.3% | 29.7% | 0.491 | 57.4% | 79.8% | 66.8% | 59.2% | 0.347 |
| gemini-2.5 | 64.5% | 85.6% | 73.5% | 47.2% | 0.397 | 53.8% | 91.0% | 67.6% | 78.2% | 0.365 |
| claude-4.5 | 63.9% | 74.0% | 68.6% | 41.8% | 0.319 | 59.6% | 59.0% | 59.3% | 40.0% | 0.257 |
| claude-4 | 73.8% | 50.7% | 60.1% | 18.0% | 0.232 | 67.3% | 44.5% | 53.6% | 21.7% | 0.247 |
| deepseek-r1 | 75.8% | 68.5% | 72.0% | 21.9% | 0.365 | 52.2% | 83.7% | 64.3% | 76.5% | 0.261 |
| deepseek-v3 | 83.4% | 37.1% | 51.3% | 7.4% | 0.179 | 53.9% | 51.3% | 52.6% | 43.8% | 0.170 |
| gpt-5 | 92.6% | 68.9% | 79.0% | 5.5% | 0.416 | 68.8% | 48.8% | 57.1% | 22.2% | 0.251 |
| gpt-5-mini | 68.5% | 76.9% | 72.5% | 35.3% | 0.363 | 60.9% | 68.8% | 64.6% | 44.2% | 0.252 |
| qwen-3-32b | 53.1% | 83.1% | 64.8% | 73.3% | 0.189 | 51.0% | 80.0% | 62.3% | 77.0% | 0.185 |
| qwen-3-8b | 52.4% | 41.3% | 46.2% | 37.5% | 0.052 | 53.3% | 61.7% | 57.2% | 54.0% | 0.105 |
- 대부분의 모델은 이상을 효과적으로 탐지하는 데 어려움을 겪고 있으며, 맥락 독립 F1 평균은 약 66.7%, 맥락 의존 F1 평균은 약 60.5%이다.
- 이상 위치 파악은 미흡하다; 평균 AL 점수는 CI 0.300, CD 0.221이다.
- 귀속 설명은 일반적으로 약하며, 상위 모델에서도 CI 이상에 대해 약 74% 수준의 귀속을 달성하지만 CD 이상에서는 훨씬 낮다.
- 더 큰 모델일수록 성능이 향상되는 경향이 있으며, Qwen 및 LLaMA 계열에서 크기 관련 이득이 관찰되지만 보편적이지는 않다.
- GPT-5 계열 모델은 일부 경우에 강한 정밀도를 보이지만 매우 낮은 FPR 제어를 나타내며 이상 신호의 일관성이 부족하다.
- 맥락 의존적 탐지는 평가된 모델에서 맥락 독립 탐지보다 여전히 더 어렵다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.