[논문 리뷰] Evaluating Human-Language Model Interaction
HALIE은 대상, 관점, 기준에 걸쳐 대화형 인간-LM 상호작용을 평가하는 프레임워크로, 비대화형 LM의 성능이 더 좋다고 해서 다섯 가지 작업에서 대화형 결과가 항상 더 나은 것은 아님을 보여준다.
Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation.
연구 동기 및 목표
- 최종 출력 이상으로 인간-LM 상호작용을 평가하기 위한 다차원 프레임워크(HALIE)를 정의한다.
- 상호작용을 상태, 행동, 프롬프트가 포함된 시스템으로 모델링하여 대화형 과정을 포착한다.
- 상호작용의 흔적을 평가하기 위해 세 차원(대상, 관점, 기준)에 걸친 지표를 개발한다.
- 다섯 가지 작업에서 HALIE를 구현하여 인터랙티브 환경에서의 LM 성능을 연구한다.
- 향후 대화형 LM 평가를 지원하기 위한 지침과 데이터를 제공하고 공개한다.
제안 방법
- 프롬프트를 구성하고 LM을 호출하는 시스템 로직을 포함한 LM + UI + 시스템으로 정의한다.
- 사용자-시스템 프롬프트 및 LM 응답에 의해 생성된 상태-행동 페어의 흔적으로 상호작용을 표현한다.
- HALIE의 세 가지 평가 차원: 대상(프로세스 + 출력), 관점(일인 사용자 대 제3자), 기준(품질 대 선호)을 제안한다.
- 다섯 가지 대화형 작업(사회적 대화, 질의 응답, 십자말 풀이, 요약, 은유 생성)을 설계하고 작업별 대화형 시스템을 구현한다.
- 네 가지 LM(TextDavinci, TextBabbage, Davinci, Jumbo)을 평가하여 대화형 성능과 비대화형 성능을 비교한다.
- 비대화형 우수성이 대화형 성능으로 이어지지 않는 케이스를 식별하기 위해 상호작용 흔적을 분석한다.
실험 결과
연구 질문
- RQ1RQ1: 비대화형 성능을 최적화하는 것이 실제 사용되는 대화형 설정에서 더 나은 대화형 성능으로 이어지는가?
- RQ2RQ2: 일인(사용자) 평가와 제3자 평가가 대화형 LM 상호작용에서 어떻게 비교되는가?
- RQ3RQ3: 품질 지표가 대화형 사용에서 사용자 선호와 일치하는가, 아니면 선호가 품질과 다를 수 있는가?
- RQ4사회적 대화에서 은유 생성에 이르는 다양한 작업이 대화형 평가와 비대화형 평가 간의 차이를 어떻게 드러내는가?
주요 결과
| 모델 | 유창성 | 합리성 | 특이성 | 인간성 | 흥미로움 | 경향성 | 재사용 |
|---|---|---|---|---|---|---|---|
| TextDavinci | 93 \u00b1 1.0 | 94 \u00b1 1.0 * * | 83 \u00b1 1.6 * | 37 \u00b1 2.0 | 36 \u00b1 2.0 | 91 \u00b1 1.2 | 4.09 \u00b1 .14 * * |
| TextBabbage | 90 \u00b1 1.4 | 84 \u00b1 1.7 * | 81 \u00b1 1.8 * | 29 \u00b1 2.1 | 30 \u00b1 2.1 | 88 \u00b1 1.5 | 3.35 \u00b1 .16 * |
| Davinci | 92 \u00b1 1.3 | 89 \u00b1 1.4 * | 92 \u00b1 1.3 * * | 24 \u00b1 2.0 | 27 \u00b1 2.0 | 91 \u00b1 1.3 | 3.80 \u00b1 .17 |
| Jumbo | 89 \u00b1 1.3 | 86 \u00b1 1.5 | 84 \u00b1 1.5 | 24 \u00b1 1.8 | 32 \u00b1 2.0 | 87 \u00b1 1.4 | 3.21 \u00b1 .20 * |
- 더 나은 비대화형 성능이 모든 작업에서 더 나은 대화형 성능으로 항상 이어지지는 않는다.
- QA의 경우, 비대화형 정확도와 다소 낮은 모델이 특정 도메인에서 대화형 역할에서 다른 모델을 능가할 수 있다.
- 일인 사용자 평가는 요약과 같은 출력에서 제3자 주석과 차이가 날 수 있다.
- 사용자는 모델을 실제로 작업 성능을 향상시키는 것보다 더 도움이 되는 것으로 인식할 수 있다(예: 십자말 풀이).
- 지시 미세조정된 모델은 종종 많은 품질 지표에서 더 높은 점수를 받지만 특이성이 떨어질 수 있다.
- 대화에서 사용자는 많은 지표에서 TextDavinci를 선호했으나 특이성 면에서는 Davinci를 선호하여 선호에 따른 모델 선택을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.