[논문 리뷰] How Vulnerable Are Edge LLMs?
논문은 경량화된 엣지 배포 LLM에서의 양자화가 질의 기반 지식 추출을 방지하지 않음을 보여주고, 한정된 질의 예산 하에서 추출 효율성을 높이는 클러스터화된 지시 질의 프레임워크인 CLIQ를 제시합니다. 이는 양자화된 Qwen 모델에서 시演되었습니다.
Large language models (LLMs) are increasingly deployed on edge devices under strict computation and quantization constraints, yet their security implications remain unclear. We study query-based knowledge extraction from quantized edge-deployed LLMs under realistic query budgets and show that, although quantization introduces noise, it does not remove the underlying semantic knowledge, allowing substantial behavioral recovery through carefully designed queries. To systematically analyze this risk, we propose extbf{CLIQ} ( extbf{Cl}ustered extbf{I}nstruction extbf{Q}uerying), a structured query construction framework that improves semantic coverage while reducing redundancy. Experiments on quantized Qwen models (INT8/INT4) demonstrate that CLIQ consistently outperforms original queries across BERTScore, BLEU, and ROUGE, enabling more efficient extraction under limited budgets. These results indicate that quantization alone does not provide effective protection against query-based extraction, highlighting a previously underexplored security risk in edge-deployed LLMs.
연구 동기 및 목표
- 양자화된 엣지 배치 LLM이 현실적인 질의 예산 하에서 행동 지식을 누설하는지 평가합니다.
- 의미적 범위를 최대화하고 중복을 최소화하는 구조적 질의 프레이밍을 개발합니다.
- 제한된 질의로도 효율적 추출을 위한 클러스터 기반 지시 질의(CLIQ)의 효능을 시연합니다.
- 양자화 수준과 모델 크기에 걸쳐 추출 효율성을 평가합니다.
- 온디바이스 LLM 배포의 보안 함의와 보호책에 대한 통찰을 제공합니다.
제안 방법
- CLIQ(Clustered Instruction Querying)를 제안하여 후보 지시 질의를 의미적 클러스터로 구성합니다.
- 문장 임베딩과 MiniBatchKMeans를 사용해 질의를 클러스터링하고 의미적 영역을 생성합니다.
- 강력한 LLM의 클러스터 조건 질의를 통해 클러스터 인식 대표 질의를 생성합니다.
- 질의-응답 쌍으로 학생 모델을 학습시켜 정보 누설과 모델 동작 재현을 정량화합니다.
- 고정된 질의 예산(예: 1000 질의) 하에서 CLIQ와 Original Queries를 INT8/INT4 양자화된 교사 및 학생 모델 간 비교합니다.
- BERTScore, BLEU, ROUGE를 포함한 평가 지표를 사용해 추출 품질을 평가합니다.

실험 결과
연구 질문
- RQ1양자화된 엣지 LLM이 제한된 질의 상호작용을 통해 추출될 수 있는 의미 지식을 보존합니까?
- RQ2구조화된 질의 구성은 엣지 배치 제약하에서 단순 질의에 비해 추출 효율을 향상시키나요?
- RQ3다른 양자화 수준(INT8 vs INT4)이 질의 통해 엣지 모델의 동작 학습 가능성에 어떤 영향을 줍니까?
- RQ4클러스터 인식 질의가 재구성 품질과 샘플 효율성에 미치는 영향은 무엇인가요?
주요 결과
| 방법 | BERT-F1 | BLEU | RLsum |
|---|---|---|---|
| 원본 쿼리 | 77.97 | 1.05 | 13.37 |
| CLIQ(저희) | 84.35 | 2.77 | 17.50 |
- CLIQ는 동일한 질의 예산 하에서 BERT-F1, BLEU, ROUGE 지표에서 원래 질의 전략을 일관되게 능가합니다.
- 1.7B INT8 양자화된 학생 모델이 CLIQ로 얻어지는 지식 전달로 더 큰 교사 모델의 성능에 필적하거나 이를 초과합니다.
- 양자화는 교사 성능에 미세한 저하를 가져오지만 구조화된 질의는 동작 추출에 여전히 효과적입니다.
- 고정 예산(예: 500 질의) 하에서 CLIQ는 Original Queries에 비해 더 높은 BERT-F1, BLEU, ROUGE-L을 달성하고 더 빠른 증가와 조기 포화성을 보입니다.
- CLIQ를 통한 추출 효율은 질의 수가 100에서 300으로 증가할 때 급격히 개선되고 그 이후로는 수익이 감소하는 경향으로, 높은 샘플 효율을 시사합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.