[논문 리뷰] Will releasing the weights of future large language models grant widespread access to pandemic agents?
이 논문은 향후 LLM 가중치 공개가 팬데믹 관련 정보에 접근하게 하는지 여부를 검증하는 해커톤을 보고하고, 경량으로 미세 조정된 모델이 핵심 바이로로지 정보를 드러낼 수 있음을 발견했다.
Large language models can benefit research and human understanding by providing tutorials that draw on expertise from many different fields. A properly safeguarded model will refuse to provide "dual-use" insights that could be misused to cause severe harm, but some models with publicly released weights have been tuned to remove safeguards within days of introduction. Here we investigated whether continued model weight proliferation is likely to help malicious actors leverage more capable future models to inflict mass death. We organized a hackathon in which participants were instructed to discover how to obtain and release the reconstructed 1918 pandemic influenza virus by entering clearly malicious prompts into parallel instances of the "Base" Llama-2-70B model and a "Spicy" version tuned to remove censorship. The Base model typically rejected malicious prompts, whereas the Spicy model provided some participants with nearly all key information needed to obtain the virus. Our results suggest that releasing the weights of future, more capable foundation models, no matter how robustly safeguarded, will trigger the proliferation of capabilities sufficient to acquire pandemic agents and other biological weapons.
연구 동기 및 목표
- 미래 기초 모델의 가중치 확산이 팬데믹 에이전트에 대한 악의적 접근을 가능하게 할 수 있는지 평가한다.
- 공개 가중치와 모델 미세 조정이 안전장치와 어떻게 상호작용하는지 평가한다.
- 미세 조정된 모델에서 악의적인 프롬프트가 얼마나 쉽게 바이러스학 정보를 추출할 수 있는지 정량화한다.
- 모델 공개 및 안전장치에 대한 정책 권고를 제시한다.
제안 방법
- 통제된 검열이 줄어든 튜닝된 Spicy 버전과 Base Llama-2-70B 모델의 병행 인스턴스를 사용한 해커톤을 조직한다.
- 참가자들에게 팬데믹 관련 정보를 얻기 위해 명확하게 악의적 프롬프트를 제공한다.
- 정보 유출 정도를 평가하기 위해 Base 및 Spicy 모델 간 출력을 비교한다.
- 가중치 공개만으로 또는 모델 튜닝과의 조합으로 위험한 정보를 획득하는 데 필요한 제약이 감소하는지 분석한다.
- 모델 공개에서 안전장치와 공공정책에 대한 시사점을 논의한다.
실험 결과
연구 질문
- RQ1향후 LLM의 가중치 공개가 팬데믹 에이전트를 확보하기 위한 유능한 기능에 의미 있게 접근할 수 있게 하는가?
- RQ2검열 제거를 위한 최소한의 미세 조정이 위험한 바이로로지 정보의 추출에 어떤 영향을 미치는가?
- RQ3가중치가 널리 공개될 경우 남용을 방지하기 위해 어떤 정책 및 안전장치가 필요한가?
주요 결과
- Base 모델은 일반적으로 악의적 프롬프트를 거부하여 접근을 제한했다.
- Spicy 모델은 일부 참가자에게 바이러스 획득에 필요한 주요 정보를 거의 모두 제공했다.
- 향후 더 강력한 기초 모델은 안전장치가 있어도 가중치 공개로 팬데믹 에이전트를 취득할 수 있게 할 수 있음을 시사한다.
- 본 연구 결과는 남용을 방지하기에 필요하지만 충분하지 않은 것에 대한 정책 권고를 알려준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.