QUICK REVIEW

[논문 리뷰] Evaluating Human-Language Model Interaction

Mina Lee, Megha Srivastava|arXiv (Cornell University)|2022. 12. 19.

Topic Modeling인용 수 39

한 줄 요약

HALIE은 대상, 관점, 기준에 걸쳐 대화형 인간-LM 상호작용을 평가하는 프레임워크로, 비대화형 LM의 성능이 더 좋다고 해서 다섯 가지 작업에서 대화형 결과가 항상 더 나은 것은 아님을 보여준다.

ABSTRACT

Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation.

연구 동기 및 목표

최종 출력 이상으로 인간-LM 상호작용을 평가하기 위한 다차원 프레임워크(HALIE)를 정의한다.
상호작용을 상태, 행동, 프롬프트가 포함된 시스템으로 모델링하여 대화형 과정을 포착한다.
상호작용의 흔적을 평가하기 위해 세 차원(대상, 관점, 기준)에 걸친 지표를 개발한다.
다섯 가지 작업에서 HALIE를 구현하여 인터랙티브 환경에서의 LM 성능을 연구한다.
향후 대화형 LM 평가를 지원하기 위한 지침과 데이터를 제공하고 공개한다.

제안 방법

프롬프트를 구성하고 LM을 호출하는 시스템 로직을 포함한 LM + UI + 시스템으로 정의한다.
사용자-시스템 프롬프트 및 LM 응답에 의해 생성된 상태-행동 페어의 흔적으로 상호작용을 표현한다.
HALIE의 세 가지 평가 차원: 대상(프로세스 + 출력), 관점(일인 사용자 대 제3자), 기준(품질 대 선호)을 제안한다.
다섯 가지 대화형 작업(사회적 대화, 질의 응답, 십자말 풀이, 요약, 은유 생성)을 설계하고 작업별 대화형 시스템을 구현한다.
네 가지 LM(TextDavinci, TextBabbage, Davinci, Jumbo)을 평가하여 대화형 성능과 비대화형 성능을 비교한다.
비대화형 우수성이 대화형 성능으로 이어지지 않는 케이스를 식별하기 위해 상호작용 흔적을 분석한다.

실험 결과

연구 질문

RQ1RQ1: 비대화형 성능을 최적화하는 것이 실제 사용되는 대화형 설정에서 더 나은 대화형 성능으로 이어지는가?
RQ2RQ2: 일인(사용자) 평가와 제3자 평가가 대화형 LM 상호작용에서 어떻게 비교되는가?
RQ3RQ3: 품질 지표가 대화형 사용에서 사용자 선호와 일치하는가, 아니면 선호가 품질과 다를 수 있는가?
RQ4사회적 대화에서 은유 생성에 이르는 다양한 작업이 대화형 평가와 비대화형 평가 간의 차이를 어떻게 드러내는가?

주요 결과

모델	유창성	합리성	특이성	인간성	흥미로움	경향성	재사용
TextDavinci	93 \u00b1 1.0	94 \u00b1 1.0 * *	83 \u00b1 1.6 *	37 \u00b1 2.0	36 \u00b1 2.0	91 \u00b1 1.2	4.09 \u00b1 .14 * *
TextBabbage	90 \u00b1 1.4	84 \u00b1 1.7 *	81 \u00b1 1.8 *	29 \u00b1 2.1	30 \u00b1 2.1	88 \u00b1 1.5	3.35 \u00b1 .16 *
Davinci	92 \u00b1 1.3	89 \u00b1 1.4 *	92 \u00b1 1.3 * *	24 \u00b1 2.0	27 \u00b1 2.0	91 \u00b1 1.3	3.80 \u00b1 .17
Jumbo	89 \u00b1 1.3	86 \u00b1 1.5	84 \u00b1 1.5	24 \u00b1 1.8	32 \u00b1 2.0	87 \u00b1 1.4	3.21 \u00b1 .20 *

더 나은 비대화형 성능이 모든 작업에서 더 나은 대화형 성능으로 항상 이어지지는 않는다.
QA의 경우, 비대화형 정확도와 다소 낮은 모델이 특정 도메인에서 대화형 역할에서 다른 모델을 능가할 수 있다.
일인 사용자 평가는 요약과 같은 출력에서 제3자 주석과 차이가 날 수 있다.
사용자는 모델을 실제로 작업 성능을 향상시키는 것보다 더 도움이 되는 것으로 인식할 수 있다(예: 십자말 풀이).
지시 미세조정된 모델은 종종 많은 품질 지표에서 더 높은 점수를 받지만 특이성이 떨어질 수 있다.
대화에서 사용자는 많은 지표에서 TextDavinci를 선호했으나 특이성 면에서는 Davinci를 선호하여 선호에 따른 모델 선택을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.