Skip to main content
QUICK REVIEW

[논문 리뷰] Evaluating Human-Language Model Interaction

Mina Lee, Megha Srivastava|arXiv (Cornell University)|2022. 12. 19.
Topic Modeling인용 수 39
한 줄 요약

HALIE은 대상, 관점, 기준에 걸쳐 대화형 인간-LM 상호작용을 평가하는 프레임워크로, 비대화형 LM의 성능이 더 좋다고 해서 다섯 가지 작업에서 대화형 결과가 항상 더 나은 것은 아님을 보여준다.

ABSTRACT

Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation.

연구 동기 및 목표

  • 최종 출력 이상으로 인간-LM 상호작용을 평가하기 위한 다차원 프레임워크(HALIE)를 정의한다.
  • 상호작용을 상태, 행동, 프롬프트가 포함된 시스템으로 모델링하여 대화형 과정을 포착한다.
  • 상호작용의 흔적을 평가하기 위해 세 차원(대상, 관점, 기준)에 걸친 지표를 개발한다.
  • 다섯 가지 작업에서 HALIE를 구현하여 인터랙티브 환경에서의 LM 성능을 연구한다.
  • 향후 대화형 LM 평가를 지원하기 위한 지침과 데이터를 제공하고 공개한다.

제안 방법

  • 프롬프트를 구성하고 LM을 호출하는 시스템 로직을 포함한 LM + UI + 시스템으로 정의한다.
  • 사용자-시스템 프롬프트 및 LM 응답에 의해 생성된 상태-행동 페어의 흔적으로 상호작용을 표현한다.
  • HALIE의 세 가지 평가 차원: 대상(프로세스 + 출력), 관점(일인 사용자 대 제3자), 기준(품질 대 선호)을 제안한다.
  • 다섯 가지 대화형 작업(사회적 대화, 질의 응답, 십자말 풀이, 요약, 은유 생성)을 설계하고 작업별 대화형 시스템을 구현한다.
  • 네 가지 LM(TextDavinci, TextBabbage, Davinci, Jumbo)을 평가하여 대화형 성능과 비대화형 성능을 비교한다.
  • 비대화형 우수성이 대화형 성능으로 이어지지 않는 케이스를 식별하기 위해 상호작용 흔적을 분석한다.

실험 결과

연구 질문

  • RQ1RQ1: 비대화형 성능을 최적화하는 것이 실제 사용되는 대화형 설정에서 더 나은 대화형 성능으로 이어지는가?
  • RQ2RQ2: 일인(사용자) 평가와 제3자 평가가 대화형 LM 상호작용에서 어떻게 비교되는가?
  • RQ3RQ3: 품질 지표가 대화형 사용에서 사용자 선호와 일치하는가, 아니면 선호가 품질과 다를 수 있는가?
  • RQ4사회적 대화에서 은유 생성에 이르는 다양한 작업이 대화형 평가와 비대화형 평가 간의 차이를 어떻게 드러내는가?

주요 결과

모델유창성합리성특이성인간성흥미로움경향성재사용
TextDavinci93 \u00b1 1.094 \u00b1 1.0 * *83 \u00b1 1.6 *37 \u00b1 2.036 \u00b1 2.091 \u00b1 1.24.09 \u00b1 .14 * *
TextBabbage90 \u00b1 1.484 \u00b1 1.7 *81 \u00b1 1.8 *29 \u00b1 2.130 \u00b1 2.188 \u00b1 1.53.35 \u00b1 .16 *
Davinci92 \u00b1 1.389 \u00b1 1.4 *92 \u00b1 1.3 * *24 \u00b1 2.027 \u00b1 2.091 \u00b1 1.33.80 \u00b1 .17
Jumbo89 \u00b1 1.386 \u00b1 1.584 \u00b1 1.524 \u00b1 1.832 \u00b1 2.087 \u00b1 1.43.21 \u00b1 .20 *
  • 더 나은 비대화형 성능이 모든 작업에서 더 나은 대화형 성능으로 항상 이어지지는 않는다.
  • QA의 경우, 비대화형 정확도와 다소 낮은 모델이 특정 도메인에서 대화형 역할에서 다른 모델을 능가할 수 있다.
  • 일인 사용자 평가는 요약과 같은 출력에서 제3자 주석과 차이가 날 수 있다.
  • 사용자는 모델을 실제로 작업 성능을 향상시키는 것보다 더 도움이 되는 것으로 인식할 수 있다(예: 십자말 풀이).
  • 지시 미세조정된 모델은 종종 많은 품질 지표에서 더 높은 점수를 받지만 특이성이 떨어질 수 있다.
  • 대화에서 사용자는 많은 지표에서 TextDavinci를 선호했으나 특이성 면에서는 Davinci를 선호하여 선호에 따른 모델 선택을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.