Skip to main content
QUICK REVIEW

[논문 리뷰] Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions

Federico Bianchi, Mirac Süzgün|arXiv (Cornell University)|2023. 09. 14.
Natural Language Processing Techniques인용 수 11
한 줄 요약

이 논문은 instruction-tuning 과정에서 소량의 안전 중심 시연을 추가하는 것이 오픈 소스 LLaMA/Falcon 모델의 안전성을 크게 향상시키고 표준 벤치마크에 미치는 영향은 최소화되며, 반면 과도한 안전 데이터는 안전성 과장 및 무해한 프롬프트에 대한 거부로 이어질 수 있음을 보여준다.

ABSTRACT

Training large language models to follow instructions makes them perform better on a wide range of tasks and generally become more helpful. However, a perfectly helpful model will follow even the most malicious instructions and readily generate harmful content. In this paper, we raise concerns over the safety of models that only emphasize helpfulness, not harmlessness, in their instruction-tuning. We show that several popular instruction-tuned models are highly unsafe. Moreover, we show that adding just 3% safety examples (a few hundred demonstrations) when fine-tuning a model like LLaMA can substantially improve its safety. Our safety-tuning does not make models significantly less capable or helpful as measured by standard benchmarks. However, we do find exaggerated safety behaviours, where too much safety-tuning makes models refuse perfectly safe prompts if they superficially resemble unsafe ones. As a whole, our results illustrate trade-offs in training LLMs to be helpful and training them to be safe.

연구 동기 및 목표

  • 안전 중심의 instruction tuning이 오픈 소스 지시 준수 LLM에서 해로운 응답을 감소시킬 수 있음을 입증한다.
  • 안전 데이터의 양과 유형이 모델의 안전성 및 일반적인 능력에 어떤 영향을 미치는지 조사한다.
  • 과장된 안전성 및 프롬프트 프레이밍 효과를 포함한 잠재적 트레이드오프를 식별한다.
  • LLM의 재현 가능한 안전성 평가를 위한 데이터 세트와 평가 파이프라인을 제공한다.

제안 방법

  • GPT-3.5-turbo를 사용해 레드팀 질문을 안전한 지시-응답 쌍으로 변환하여 안전 중심의 지시 데이터 세트를 구성한다.
  • 기본 Alpaca-정제 지시 집합에 다양한 양의 안전 데이터를 추가한다(100, 300, 500, 1000, 1500, 2000 지시).
  • LoRA를 사용하여 LLaMA 7B, LLaMA 13B, Falcon 7B를 네 에포크 동안 미세조정하고 검증 손실로 체크포인트를 선택한다.
  • 악의적, 논쟁적, 신체적 안전성, 과장된 안전성 시나리오를 다루는 안전 평가 데이터 세트를 설계한다.
  • 해로운 정도 보상 모델, 콘텐츠 관리 API, 수동 주석화와 일반 능력 벤치마크(AlpacaEval, LM Harness)를 통해 안전성을 평가한다.
  • 안전 질문 vs. 안전 지시 vs. 혼합 형식으로의 훈련이 프롬프트 형식 효과에 미치는 영향을 분석한다.

실험 결과

연구 질문

  • RQ1악의적 프롬프트가 주어졌을 때 오픈 소스 지시 준수 LLM은 얼마나 안전하지 않은가?
  • RQ2instruction-tuning 중 안전 시연을 추가하면 일반적인 능력을 해치지 않으면서 해로운 출력을 감소시키는가?
  • RQ3모델 동작에 대한 과도한 안전 데이터(과장된 안전성)의 위험은 무엇인가?
  • RQ4안전 학습 형식(지시 vs. 질문 vs. 혼합)이 안전성 및 사용성에 어떤 영향을 미치는가?

주요 결과

  • instruction-tuning 중 안전 데이터가 추가되면 보상 모델과 콘텐츠 모더레이션 지표로 측정된 해로운 응답이 크게 감소한다.
  • 기본 20k를 넘겨 500–1000개의 안전 지시를 추가하면 일반 벤치마크를 저해하지 않으면서 해로운 정도를 크게 감소시킨다.
  • 과도한 안전 데이터(예: 2000개의 안전 지시)는 과장된 안전성의 가능성을 높여 모델이 안전하더라도 프롬프트를 거부하게 만들 수 있다.
  • 훈련 중 프롬프트의 구성 방식(지시 vs. 질문 vs. 혼합)이 안전성 결과에 큰 영향을 주며, 일반적으로 지시 형식이 더 안전한 응답을 낳는다.
  • 안전 튜닝된 모델은 표준 벤치마크(AlpacaEval, LM Harness)에서 비안전 튜닝 기준 모델과 비교해 전반적인 성능이 비슷하게 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.