[논문 리뷰] Wider and Deeper LLM Networks are Fairer LLM Evaluators
이 논문은 WideDeep를 제안하는데, 이는 각 뉴런이 고유한 역할을 가진 더 넓고 더 깊은 LLM 기반 평가자이며, 두 층으로 구성된 더 넓은 네트워크가 LLM 출력의 평가를 더 공정하고 빠르게 수행함을 보여주고 LLMEval2 벤치마크를 소개합니다.
Measuring the quality of responses generated by LLMs is a challenging task, particularly when it comes to evaluating whether the response is aligned with human preference. A novel approach involves using the LLM itself to make evaluation and stabilizing the results through multiple independent evaluations, similar to a single-layer narrow LLM network. This network consists of a fixed number of neurons, with each neuron being the same LLM. In this paper, we draw upon the extensive research on deep neural networks to explore whether deeper and wider networks can lead to fairer evaluations. Specifically, inspired by the observation that different neurons in a neural network are responsible for detecting different concepts, we first adaptively generate as many neuron roles as possible for each evaluation sample. Each perspective corresponds to the role of a specific LLM neuron in the first layer. In subsequent layers, we follow the idea that higher layers in deep networks are responsible for more comprehensive features, each layer receives representations from all neurons in the previous layer, integrating the locally learned evaluation information to obtain a more comprehensive evaluation result. Interestingly, this network design resembles the process of academic paper reviewing. To validate the effectiveness of our method, we construct the largest and most diverse English evaluation benchmark LLMEval$^2$ for LLM evaluators, comprising 15 tasks, 8 abilities, and 2,553 samples. Experimental results demonstrate that a wider network (involving many reviewers) with 2 layers (one round of discussion) performs the best, improving kappa correlation coefficient from 0.28 to 0.34. We also leverage WideDeep to aid in the assessment of Chinese LLMs, which has accelerated the evaluation time by 4.6 times, resulting in a 60% cost saving. WideDeep achieves a remarkable 93% agreement level among humans.
연구 동기 및 목표
- 다중 계층, 다중 역할의 LLM 평가자를 활용해 인간 선호도와의 정렬을 개선하려는 동기 부여 및 형식화.
- 평가 네트워크를 넓히고 깊게 하는 것이 평가의 공정성 및 신뢰성에 어떤 영향을 미치는지 조사합니다.
- WideDeep가 영어 및 중국어 LLM 평가 벤치마크에서의 효과를 증명하고 뉴런 역할을 분석합니다.
- 다양하고 대규모의 평가 벤치마크(LLMEval2)를 LLM 평가자용으로 제공하여 다중 작업 및 능력을 포함합니다.
제안 방법
- 각 뉴런이 고정된 LLM으로 특정 평가 역할을 부여하는 다층의 넓은 LLM 네트워크를 정의합니다.
- Neuron Role Prompt를 사용하여 샘플별로 적응적 뉴런 역할을 생성해 다양한 관점을 만듭니다.
- 학습 가능 가중치를 두지 않고 층을 연결하며, pi2를 시뮬레이션하는 프롬프트를 통해 뉴런 간 연결을 설정합니다.
- c1(산출 평균) 및 c2(뉴런-투표) 전략을 통해 층의 출력을 집계해 최종 점수를 도출합니다.
- 평가 과정을 학술 논문 심사에 비유해 동기부여합니다(블라인드 리뷰, 토론, 의장 결정).
- 대형이고 다양한 벤치마크 LLMEval2를 구성합니다(15개 데이터세트, 8가지 능력, 2,553샘플) LLM 평가자를 위해서.
실험 결과
연구 질문
- RQ1더 넓고 깊은 LLM 평가 네트워크가 인간 선호도와의 정합성을 개선하는가?
- RQ2다양한 태스크에 효과적인 뉴런 역할은 무엇이며 그것이 결과에 어떤 영향을 미치는가?
- RQ3WideDeep가 실무 LLM 평가에서 수작업 주석을 가속하고 비용을 줄일 수 있는가?
- RQ4영어 및 중국어 LLM 평가 시나리오에서 WideDeep의 성능은 어떠한가?
주요 결과
- WideDeep(두 층의 넓은 네트워크)는 단일 층 FairEval과 비교하여 FairEval, PandaLM, LLMEval2 벤치마크에서 평가 정확도와 κ 값을 눈에 띄게 향상시켰습니다.
- 두 층에서 더 많은 뉴런으로 폭을 증가시키면 더 나은 결과를 얻을 수 있으며, 두 층을 넘는 더 깊은 네트워크는 정보의 동질화로 인해 성능이 저하될 수 있습니다.
- 다양한 뉴런 역할이 중요합니다; 뉴런 역할 가이던스를 제거하면 성능이 저하되고, 역할이 있는 무제한 뉴런은 더 높은 정확도를 보입니다.
- 중국어 LLM 평가에서 WideDeep가 베이스라인보다 우수한 성능을 보이며 라벨링 정확도 74%, 인간 합의 93%, 시간 및 비용 절감의 큰 이점을 얻습니다(속도 4.6배 증가, 비용 60% 절감).
- LLMEval2는 이전 데이터세트의 한계를 해결하고 LLM 평가자의 견고한 평가를 지원하는 포괄적이고 다양한 벤치마크입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.