Skip to main content
QUICK REVIEW

[논문 리뷰] Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive

Arka Pal, Deep Karkhanis|arXiv (Cornell University)|2024. 02. 20.
Decision-Making and Behavioral Economics인용 수 6
한 줄 요약

본 논문은 Direct Preference Optimisation (DPO)의 실패 모드를 식별하고 미세 조정이 선호된 완성의 확률을 감소시킬 수 있음을 보여주며, 이를 완화하기 위한 DPO-Positive (DPOP)를 제안한다; DPOP로 미세 조정한 결과 Open 소스 LLM인 Smaug가 오픈 모델 중 최첨단 성능을 달성한다.

ABSTRACT

Direct Preference Optimisation (DPO) is effective at significantly improving the performance of large language models (LLMs) on downstream tasks such as reasoning, summarisation, and alignment. Using pairs of preferred and dispreferred data, DPO models the relative probability of picking one response over another. In this work, first we show theoretically that the standard DPO loss can lead to a reduction of the model's likelihood of the preferred examples, as long as the relative probability between the preferred and dispreferred classes increases. We then show empirically that this phenomenon occurs when fine-tuning LLMs on common datasets, especially datasets in which the edit distance between pairs of completions is low. Using these insights, we design DPO-Positive (DPOP), a new loss function and training procedure which avoids this failure mode. Surprisingly, we find that DPOP outperforms DPO and other fine-tuning procedures across a wide variety of datasets and downstream tasks, including datasets with high edit distances between completions. Furthermore, we find that the DPOP-tuned model outperforms the DPO-tuned model (all else equal) on benchmarks independent of the fine-tuning data, such as MT-Bench. Finally, using DPOP, we create and open-source Smaug-34B and Smaug-72B, with the latter becoming the first open-source LLM to surpass an average accuracy of 80% on the HuggingFace Open LLM Leaderboard.

연구 동기 및 목표

  • 근접 편집된 선호 쌍으로 미세 조정할 때 Direct Preference Optimisation (DPO)의 실패 모드를 설명하고 특성화한다.
  • 선호된 완성의 저하를 완화하는 손실 함수인 DPO-Positive (DPOP)를 제안하고 검증한다.
  • DPOP으로 학습된 새로운 페어링된 선호 데이터세트에서 Smaug-7B, Smaug-34B, Smaug-72B 등 새로운 오픈소스 LLM을 생성하고 공개한다.
  • 표준 오픈 벤치마크(HuggingFace Open LLM Leaderboard, MT-Bench)에서 Smaug 모델을 평가하여 오픈 모델 중 최첨단 성능을 확립한다.

제안 방법

  • 선호된 완성의 확률이 감소할 수 있는 조건을 보이도록 DPO 손실을 이론적으로 분석한다.
  • 선호된 로그 가능도를 보존하기 위해 DPO 손실에 패널티 항을 추가하여 DPO-Positive (DPOP)을 도입한다.
  • 선호된 완성으로 토큰을 유인하는 것을 보이기 위해 DPOP의 그래디언트 동작을 도출한다.
  • ARC, HellaSwag, MetaMath를 기반으로 새로운 페어링된 선호 데이터세트를 생성하고 DPOP 학습을 적용한다.
  • 새로운 데이터세트에서 DPOP를 사용해 Smaug-7B, Smaug-34B, Smaug-72B를 미세 조정하고 표준 벤치마크에서 평가를 보고한다.

실험 결과

연구 질문

  • RQ1편집 거리(수정 간격)가 작을 때 표준 DPO가 때때로 선호된 완성의 로그 가능도를 감소시키는가?
  • RQ2수정된 손실(DPOP)이 DPO 프레이밍을 보존하면서 선호 완성의 저하를 방지할 수 있는가?
  • RQ3DPOP으로 학습된 오픈 소스 Smaug 모델이 인기 있는 벤치마크에서 DPO 베이스라인을 능가하는가?
  • RQ4완성 간 편집 거리가 서로 다른 데이터세트에서 DPOP의 성능은 어떤가? (낮음 vs 높음)

주요 결과

  • DPO는 완성 간 편집 거리가 작아지는 선호 쌍에서 성능을 재앙적으로 저하시킬 수 있다.
  • DPOP은 이 실패 모드를 완화하고 고편집 거리 데이터세트에서도 종종 DPO보다 우수하다.
  • Smaug-72B는 HuggingFace Open LLM Leaderboard에서 평균 정확도 80.48%를 달성한 최초의 오픈소스 모델로 80%를 돌파했다.
  • Smaug-34B는 해당 규모 클래스의 모델 중 Leaderboard에서 최상위 성능을 달성했다.
  • DPOP은 ARC, HellaSwag, MetaMath 데이터세트에서의 차단 실험(Ablation) 및 MT-Bench와 MMLU 벤치마크에서도 DPO를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.