QUICK REVIEW

[논문 리뷰] The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning

Nathaniel Li, Alexander Pan|arXiv (Cornell University)|2024. 03. 05.

Network Security and Intrusion Detection인용 수 13

한 줄 요약

논문은 LLM의 위험 지식을 측정하기 위한 WMDP 벤치마크를 소개하고 일반 능력을 보존하면서 위험 지식을 감소시키는 대조적 언러닝 방법 Cut을 제안한다.

ABSTRACT

The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 3,668 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop RMU, a state-of-the-art unlearning method based on controlling model representations. RMU reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai

연구 동기 및 목표

생물보안, 사이버 보안, 화학 보안과 관련된 위험 지식을 측정하기 위한 공개적이고 공개 가능한 벤치마크(WMDP)를 설정한다.
민감한 정보를 방출하지 않도록 위험한 정보를 안전하게 수집하고 필터링하는 방법론을 제공한다.
위험한 지식을 제거하되 일반적인 AI 능력을 보존하기 위한 언러닝 기법(Cut)을 개발하고 평가한다.
언러닝이 위험한 지식을 줄일 수 있으면서 비위험성 작업의 성능을 심하게 저하시키지 않는다는 것을 입증한다.

제안 방법

생물보안, 사이버 보안, 화학 분야를 다루는 4,157개 문제의 다지선다형 벤치마크(WMDP)를 신중하게 민감 데이터를 제외하고 생성한다.
위협 모델 주도 문제 생성을 설계하여 실행 가능 세부 정보를 노출하지 않으면서 위험 지식에 근접한 질문을 만든다.
Cut은 위험 지식 활성화를 초보자 표현으로 유도하면서 무해 지식을 보존하여 일반 능력을 유지하도록 하는 두 부분 손실 미세조정 방법이다.
잊어버림 과정을 제어 벡터의 키워드 기반으로 사용하고 다 도메인 언러닝을 위해 위협 분포 간 업데이트를 교차 삽입한다.
WMDP-Bio 및 WMDP-Cyber에서 Cut을 평가하고 베이스라인과 비교하며 MMLU 및 MT-Bench와 같은 비위험성 작업에 대한 일반화 여부를 평가한다.

실험 결과

연구 질문

RQ1공개적으로 발표된 벤치마크(WMDP)가 생물보안, 사이버 보안, 화학 분야 전반의 위험 지식을 효과적으로 측정할 수 있는가?
RQ2사후 언러닝 방법이 일반 모델 능력을 보존하면서 위험 지식을 의미 있게 줄일 수 있는가?
RQ3언러닝 방법이 위협 도메인에 걸쳐 일반화되며 프로빙이나 적대적 시도에 의한 회복에 저항하는가?
RQ4LLMs의 위험 감소 도구로서 언러닝을 배치할 때의 practical 고려사항과 트레이드오프는 무엇인가?

주요 결과

WMDP는 생물보안, 사이버 보안, 화학 분야에 걸친 4,157개의 문제로 구성되어 위험 지식을 대리하는 지표로 설계되었다.
Cut은 WMDP에서 Hazardous-Knowledge 성능을 크게 감소시키고(WMDP 정확도 대폭 하락 등) MMLU와 MT-Bench에서 일반 능력을 대체로 보존한다.
Cut은 선형 프로빙이나 적대적 공격에 의한 회복에 대해 강인함을 보인다.
실험은 위험 지식의 언러닝이 정확히 WMDP 분포에 한정되지 않고 관련 콘텐츠로 일반화될 수 있음을 보여준다.
결과는 위험 관리의 광범위한 전략의 하나로서 언러닝이 실현 가능한 구성요소임을 시사하며 이중 용도 과학 지식의 신중한 처리가 필요함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.