[논문 리뷰] Verbosity Bias in Preference Labeling by Large Language Models
본 논문은 LLM 평가에서의 말투 편향(verbosity bias)을 조사하고, GPT-4가 더 긴 답을 선호하는 경향이 있으며 LLM과 인간 간에 불일치가 존재함을 보여준다. 또한 정확도 패리티에 기초한 지표를 제시하여 말투 편향을 정량화한다.
In recent years, Large Language Models (LLMs) have witnessed a remarkable surge in prevalence, altering the landscape of natural language processing and machine learning. One key factor in improving the performance of LLMs is alignment with humans achieved with Reinforcement Learning from Human Feedback (RLHF), as for many LLMs such as GPT-4, Bard, etc. In addition, recent studies are investigating the replacement of human feedback with feedback from other LLMs named Reinforcement Learning from AI Feedback (RLAIF). We examine the biases that come along with evaluating LLMs with other LLMs and take a closer look into verbosity bias -- a bias where LLMs sometimes prefer more verbose answers even if they have similar qualities. We see that in our problem setting, GPT-4 prefers longer answers more than humans. We also propose a metric to measure this bias.
연구 동기 및 목표
- 다른 LLM으로 LLM을 평가할 때 발생하는 편향, 특히 말투 편향에 주목한다.
- GPT-4가 인간보다 더 긴 답을 선호하는지 평가한다.
- 정확도 패리티에 기반한 말투 편향을 측정하는 정량적 지표를 개발한다.
- 기존의 인간 피드백 데이터셋을 사용하여 LLM의 말투 선호를 인간의 선호와 비교한다.
제안 방법
- GPT-4가 길이가 서로 다른 쌍의 응답 중에서 더 긴 쪽을 선택하는지 평가하는 실험을 수행한다.
- HH-RLHF 데이터셋을 사용하여 인간 피드백과의 일치를 비교하기 위해 GPT-4 판단을 분석한다.
- 같은 기회(equal opportunity)와 정확도 패리티(accuracy parity) 개념을 사용해 말투 편향을 정형화한다.
- 양의 값이 말이 긴 답을 선호하는 것을, 음의 값이 간결한 답을 선호하는 것을 나타내는 서명된 말투 편향 지표를 정의한다.
- 데이터에서 GPT-4와 GPT-3.5의 말투 편향 값을 제시한다.
- 단어 수 차이가 판단에 如何 영향을 미치는지 시각화하기 위해 거리 기반 플롯을 사용한다.
실험 결과
연구 질문
- RQ1LLM, 특히 GPT-4가 평가 작업에서 더 긴 답을 선호하는가?
- RQ2LLM의 말투 선호와 인간의 선호 사이에 차이가 있는가?
- RQ3정확도 패리티 기반 지표를 사용하여 모델 간 말투 편향을 정량화하고 비교할 수 있는가?
- RQ4RLAIF 스타일 평가 설정에서 인간 정렬(human alignment)에 말투 편향이 어떤 영향을 미치는가?
주요 결과
- GPT-4는 창의적 작문 프롬프트 전반에서 더 긴 답을 선호하는 경향을 보인다.
- LLM의 말투 선호와 인간의 선호 사이에 측정 가능한 차이가 있으며, 그것은 인간이 더 긴 응답을 선호하는지 더 짧은 응답을 선호하는지에 따라 다르다.
- 정확도 패리티에 기반한 지표를 제안하여 말투 편향을 정량화하고 모델 간 비교를 가능하게 한다.
- 제공된 데이터에서 GPT-4의 말투 편향 값은 0.328이고 GPT-3.5는 0.428로 남아 있는 편향을 시사한다.
- HH-RLHF 데이터셋의 인간도 더 긴 답을 선호하는 경향이 있으며, 인간이 더 짧은 답을 선호할 때 LLM 판단의 인간 일치도는 낮아진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.