[논문 리뷰] Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents
이 설문은 LLM 기반 에이전트의 위험에 대한 원천-영향 분류법을 소개하고, 여섯 가지 핵심 에이전트 특성을 분석하며, 미래 연구를 안내하기 위해 네 가지 사례 연구를 제시합니다.
With the continuous development of large language models (LLMs), transformer-based models have made groundbreaking advances in numerous natural language processing (NLP) tasks, leading to the emergence of a series of agents that use LLMs as their control hub. While LLMs have achieved success in various tasks, they face numerous security and privacy threats, which become even more severe in the agent scenarios. To enhance the reliability of LLM-based applications, a range of research has emerged to assess and mitigate these risks from different perspectives. To help researchers gain a comprehensive understanding of various risks, this survey collects and analyzes the different threats faced by these agents. To address the challenges posed by previous taxonomies in handling cross-module and cross-stage threats, we propose a novel taxonomy framework based on the sources and impacts. Additionally, we identify six key features of LLM-based agents, based on which we summarize the current research progress and analyze their limitations. Subsequently, we select four representative agents as case studies to analyze the risks they may face in practical use. Finally, based on the aforementioned analyses, we propose future research directions from the perspectives of data, methodology, and policy, respectively.
연구 동기 및 목표
- LLM-based 에이전트의 보안, 프라이버시 및 윤리적 위험에 대한 견고한 이해를 촉진합니다.
- 원천 및 영향에 따라 교차 모듈 및 교차 단계 위협을 포착하는 새로운 분류법을 제안합니다.
- LLM-based 에이전트의 여섯 가지 핵심 특성을 식별하고 현재 연구 진전과 한계를 요약합니다.
- 실용적 위험 시나리오를 보여주기 위해 네 가지 에이전트의 대표적 사례 연구를 제공합니다.
- 데이터, 방법론 및 정책에서 향후 연구 방향을 제시합니다.
제안 방법
- 위협을 모듈이나 단계가 아닌 원천에 따라 분류하기 위해 입력, 모델 또는 둘 다를 포함하는 이진 원천 분류법을 제안합니다.
- 위협을 보안/안전, 프라이버시, 윤리 범주로 분류하여 공격자 목표와 피해 유형과 일치시킵니다.
- 여섯 가지 핵심 에이전트 특성(LC, MMIO, MSI, MRI, MM, TI)에 위협을 매핑하여 공격 표면을 분석합니다.
- 최고의 컨퍼런스와 arXiv의 문헌을 검토하여 위협 역할을 합성하고 교차 모달 도전과제를 식별합니다.
- 교차 시나리오 위험 표현과 방어를 보여주기 위해 네 가지 대표 에이전트 사례를 선택합니다.
- 향후 완화 노력을 가이드하기 위한 데이터, 방법론, 정책 방향을 제시합니다.
실험 결과
연구 질문
- RQ1여러 모듈과 단계에 걸쳐 확산되는 LLM-based 에이전트에 대한 위협을 어떻게 정확하게 특징지을 수 있을까요?
- RQ2LLM-based 에이전트에서 입력, 모델 또는 이들의 조합으로 인해 어떤 위협이 발생합니까?
- RQ3다중 모달, 다중 소스, 다중 라운드 설정에서 여섯 가지 핵심 에이전트 특성과 관련된 구체적 위험은 무엇입니까?
- RQ4네 가지 사례 연구에서 얻은 교훈이 향후 보안, 프라이버시 및 윤리 방어에 어떤 시사점을 제공합니까?
- RQ5데이터, 방법론 및 정책 개선을 위한 연구 방향 중 가장 유망한 것은 무엇입니까?
주요 결과
- 입력, 모델, 또는 양자 모두에 대한 위협을 원천과 영향(보안/안전, 프라이버시, 윤리)으로 연결하는 새로운 분류법으로 교차적 리스크를 다룹니다.
- LLM-based 에이전트의 여섯 가지 핵심 특징을 식별하여 고유한 공격 표면을 만든다: LC, MMIO, MSI, MRI, MM, TI.
- 적대적 입력, 목표 가로채기, 탈옥, 기억 및 도구 호출 취약점과 관련 방어책에 대한 포괄적 검토.
- 다중 모달 및 다중 라운드 상호작용을 에이전트의 위험 증가 요인으로 강조합니다.
- 다양한 에이전트 설계와 환경에서의 실용적 위험 시나리오를 보여주는 네 가지 사례 연구.
- 현재 방어책의 한계와 격차를 논의하며 공동-강건성(joint-robustness) 및 더 넓은 모듈 범위의 필요성을 강조합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.