QUICK REVIEW

[논문 리뷰] Large language models can segment narrative events similarly to humans

Sebastian Michelmann, M. Kumar|arXiv (Cornell University)|2023. 01. 24.

Topic Modeling인용 수 10

한 줄 요약

GPT-3는 연속적인 서사를 텍스트의 개별 이벤트로 분절할 수 있으며, 경계가 인간의 합의와 크게 일치하고, 종종 개별 인간 주석자보다 합의에 더 가깝다.

ABSTRACT

Humans perceive discrete events such as "restaurant visits" and "train rides" in their continuous experience. One important prerequisite for studying human event perception is the ability of researchers to quantify when one event ends and another begins. Typically, this information is derived by aggregating behavioral annotations from several observers. Here we present an alternative computational approach where event boundaries are derived using a large language model, GPT-3, instead of using human annotations. We demonstrate that GPT-3 can segment continuous narrative text into events. GPT-3-annotated events are significantly correlated with human event annotations. Furthermore, these GPT-derived annotations achieve a good approximation of the "consensus" solution (obtained by averaging across human annotations); the boundaries identified by GPT-3 are closer to the consensus, on average, than boundaries identified by individual human annotators. This finding suggests that GPT-3 provides a feasible solution for automated event annotations, and it demonstrates a further parallel between human cognition and prediction in large language models. In the future, GPT-3 may thereby help to elucidate the principles underlying human event perception.

연구 동기 및 목표

자연주의 서사에 대한 확장 가능하고 자동화된 이벤트 분절을 촉진한다.
대형 언어 모델이 인간 주석에 비견될 만큼의 이벤트 경계를 식별할 수 있는지 평가한다.
GPT-3에서 도출된 경계가 인간 합의 및 개별 주석과 어떤 관련이 있는지 평가한다.
모델 출력에서 연속적인 이벤트 경계 확률의 측정치를 제공하고 이를 인간 동의와 비교한다.
인지과학 연구에서 재현성과 채택을 가능하게 하는 코드를 공개한다.

제안 방법

GPT-3(text-davinci-002)에 이야기를 사건으로 분절하도록 한 단어 단위 프롬프트를 사용한다.
길이가 서로 다른 세 이야기에 대해 GPT-3 컨텍스트 길이를 수용하기 위해 슬라이딩 윈도우를 사용한다.
줄바꿈 토큰으로부터 이벤트 경계를 추출하고 토큰 정렬과 동적 시간 왜곡을 통해 대본 시간 축에 매핑한다.
줄바꿈 토큰의 로그 확률로부터 연속적인 이벤트 경계 확률을 계산하고 이를 인간의 타이밍에 보간한다.
GPT-3 경계를 해밍 거리와 순열 검정을 사용해 인간 합의와 비교한다.
이야기 전반에 걸쳐 GPT-3 경계 확률과 인간 버튼 누름 확률 간의 상관관계를 평가한다.

실험 결과

연구 질문

RQ1GPT-3가 인간의 이벤트 경계와 일치하는 방식으로 서사 텍스트를 이산적 이벤트로 분절할 수 있는가?
RQ2GPT-3에서 도출된 경계가 개별 인간 주석자보다 합의 해에 더 근접한가?
RQ3모델에서 도출된 연속 경계 확률이 인간 동의와 상관 관계가 있는가?
RQ4길게 구성된 이벤트로 분절하는 것이 인간 합의와의 일치에 어떤 영향을 미치는가?
RQ5다양한 길이의 여러 이야기에서 GPT-3 경계가 인간 경계와 어떻게 비교되는가?

주요 결과

GPT-3은 서로 다른 수의 이벤트를 포함하는 세 이야기를 이벤트로 분절했고(예: Pieman: 23개 이벤트; Monkey in the Middle: 88; Tunnel Under the World: 139), 합의 인간 주석과 유의미하게 일치하는 경향을 보였다(예: 해밍 거리 약 0.245–0.264, p 값 < 0.05).
긴 이벤트에 대한 프롬프트는 경계 수를 감소시켰고(예: Pieman: 14; Monkey in the Middle: 59; Tunnel Under the World: 76) 합의에 더 가까운 일치를 보여 주었다(해밍 거리가 더 작고 일부 p 값이 < 0.01).
GPT-3에서 도출된 경계는 평균적으로 개별 인간 주석자보다 인간 합의에 더 가깝게 나타났으며, 다수의 비교에서 유의한 결과를 보였다(예: Pieman 초반 실행: GPT-3 거리 0.261 vs 인간 0.281, p=0.045).
GPT-3에서의 연속 경계 확률(줄바꿈의 로그 확률)은 인간의 연속 경계 동의와 유의하게 상관관계를 보였고(제로 래깅 상관 up to r=0.362 for Pieman 두 번째 실행, p<0.001).
다양한 이야기 전반에서 GPT-3 경계는 인간의 합의 해에 비해 개별 참가자들보다 더 근접했으며, GPT-3를 이벤트 분절에 대한 확장 가능한 자동 주석 도구로 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.