QUICK REVIEW

[논문 리뷰] Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

Neel Jain, Khalid Saifullah|arXiv (Cornell University)|2023. 06. 23.

Topic Modeling인용 수 12

한 줄 요약

이 논문은 라벨이 달린 데이터 없이도 데이터셋에 구애받지 않는 모델 평가를 가능하게 하는 입력 변환에 대한 불감도와 민감도 측정을 통해 LLM의 자기 감독 평가 프레임워크를 소개한다.

ABSTRACT

With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data.

연구 동기 및 목표

큐레이션된 라벨 데이터 세트에 의존하지 않는 평가 방법의 필요성과 학습 데이터로 인한 데이터 누출에 강인함을 입증한다.
원본/perturbed 쌍을 만들기 위해 입력 변환을 사용하고 모델 응답을 정량화하는 프레임워크를 제안한다.
여러 LLM에 걸친 자기 감독 지표들(부정에 의한 지식, 독성, 장거리 맥락, 어휘 순서, 토크나이제이션 민감도)을 demonstr하고자 한다.
가능할 때 인간이 라벨링한 벤치마크와의 상관관계를 보여준다.
생산 환경에서의 자기 감독 평가의 한계와 실용적 활용성을 논의한다.

제안 방법

간단하고 명확하게 정의된 변환(예: 부정, 욕설 트리거, 문장 재배열, 토크나이제이션 교란)을 적용하여 원본 및 변환 입력 쌍을 코퍼스에서 구성한다.
쌍을 LLM에 입력하고 확률 분포, 페플렉시티, 또는 분포 간의 유사도 메트릭을 사용해 출력을 비교한다.
데이터 세트에 걸쳐 쌍대 점수를 집계하는 집계 연산자를 통해 불감도/민감도 점수를 산출한다(점수 = A{M(f(x), f(x′))}).
구체적인 지표를 구현한다: 부정 기반 지식 탐색(로그 페플렉시티 차이를 통한 부정에 대한 민감도), F-붐 프롬프트를 통한 독성(텍스트 및 다음 토큰 확률 변화), 최종 문장 분포에 대한 Jensen-Shannon 발산을 통한 맥락의 장거리 민감도, 원본과 단어 교환 분포 간의 JSD를 통한 어휘 순서 민감도, 토크나이제이션 끊김 비교를 통한 토크나이제이션 민감도.
일부 지표를 정상적인 말뭉치에 대한 모델의 행동을 보정하기 위해 정규화(normalized sensitivity)한다.
가능한 경우 TriviaQA 정확도와의 비교를 통해 인간 벤치마크와의 상관관계를 검증한다.

실험 결과

연구 질문

RQ1자기 감독 불감도/민감도 지표가 라벨이 없는 데이터로 LLM의 지식, 독성, 언어적 강건성을 포착하는가?
RQ2이러한 자기 감독 지표가 인간이 라벨링한 벤치마크와 상관관계가 있으며 모델 규모, 지시문 미세조정 또는 훈련 데이터에 따라 달라지는가?
RQ3부정, 장거리 맥락 변화, 어휘 순서 변형, 토크나이제이션 변형과 같은 특정 입력 변환에 대해 LLM이 어떻게 반응하는가?
RQ4생산 환경에서 자기 감독 평가를 배치하는 데 있어 한계와 실용적 고려사항은 무엇인가?

주요 결과

자기 감독 민감도 점수는 비-지시형 튜닝 모델의 인간 벤치마크 정확도(예: TriviaQA)를 추적하며, 정규화가 상관관계를 향상시킨다.
지시문 미세조정은 일반적으로 부정 민감도와 맥락 민감도를 증가시키지만 효과는 모델과 방법에 따라 다르다.
입력 변형에서 도출된 독성 지표는 여러 모델에 걸쳐 Perspective API 독성 점수와 상관관계가 있으며, 크기와의 명확한 추세는 보이지 않는다.
단어 순서 및 장거리 맥락 민감도는 모델 크기 및 지시문 미세조정과 양의 상관을 보이며, 더 크고 미세조정된 모델일수록 이러한 변형에 더 민감하다.
토크나이제이션 민감도는 학습 데이터 노출도 및 FLOPs와 관련이 있으며, 학습 중에 본 토큰 수가 적은 모델일수록 민감도가 낮은 경향이 있다; 지시문 미세조정은 토크나이제이션 강건성에 혼재된 효과를 보인다.
전반적으로 이 프레임워크는 데이터셋에 의존하지 않는 실행 가능한 측정치를 제공하여 기존의 라벨 벤치마크를 보완한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.