[論文レビュー] Large language models can segment narrative events similarly to humans
GPT-3 はテキストの連続的な語りを離散的なイベントに分割でき、境界は人間の合意と顕著に一致し、多くの場合個々の人間アノテータよりも合意に近い。
Humans perceive discrete events such as "restaurant visits" and "train rides" in their continuous experience. One important prerequisite for studying human event perception is the ability of researchers to quantify when one event ends and another begins. Typically, this information is derived by aggregating behavioral annotations from several observers. Here we present an alternative computational approach where event boundaries are derived using a large language model, GPT-3, instead of using human annotations. We demonstrate that GPT-3 can segment continuous narrative text into events. GPT-3-annotated events are significantly correlated with human event annotations. Furthermore, these GPT-derived annotations achieve a good approximation of the "consensus" solution (obtained by averaging across human annotations); the boundaries identified by GPT-3 are closer to the consensus, on average, than boundaries identified by individual human annotators. This finding suggests that GPT-3 provides a feasible solution for automated event annotations, and it demonstrates a further parallel between human cognition and prediction in large language models. In the future, GPT-3 may thereby help to elucidate the principles underlying human event perception.
研究の動機と目的
- 自然主義的な物語に対するスケーラブルで自動化されたイベントセグメンテーションを動機づける。
- 大規模言語モデルが人間のアノテーションと同等のイベント境界を識別できるかを評価する。
- GPT-3由来の境界が人間の合意と個々のアノテーションにどのように関連するかを評価する。
- モデル出力からイベント境界の連続的な確率を提供し、それを人間の同意と比較する。
- 認知科学研究で再現と普及を可能にするためのコードを提供可能にする。
提案手法
- 物語をイベントに分割するため、word-for-word プロンプトで GPT-3(text-davinci-002)に指示を出す。
- 長さの異なる三つの物語に対して、GPT-3 の文脈長を考慮するためスライディングウィンドウを使用する。
- 改行トークンからイベント境界を抽出し、トークン整列と動的時間歪みを介して転写の時間軸にマッピングする。
- 改行トークンの対数確率から連続的なイベント境界確率を計算し、人間のタイミングへ補間する。
- ハミング距離と置換検定を用いて GPT-3 の境界を人間の合意と比較する。
- 物語全体で GPT-3 の境界確率と人間のボタン押し確率との相互相関を評価する。
実験結果
リサーチクエスチョン
- RQ1GPT-3 は人間のイベント境界と一致する方法で物語テキストを離散的なイベントに分割できるか?
- RQ2GPT-3由来の境界は個々の人間アノテータよりも合意解に近いか?
- RQ3モデル由来の連続的な境界確率は人間の合意と相関するか?
- RQ4長いイベントへ分割することは人間の合意との整合性にどう影響するか?
- RQ5異なる長さの複数の物語に対して、GPT-3 の境界は人間の境界とどのように比較されるか?
主な発見
- GPT-3 は三つの物語をイベントに分割し、件数は異なる(例: Pieman: 23 件; Monkey in the Middle: 88; Tunnel Under the World: 139)であり、合意人間アノテーションと有意な一致を示した(例:ハミング距離はおおむね 0.245–0.264、p値 < 0.05)。
- 長いイベントを求めるプロンプトは境界を減らした(Pieman: 14; Monkey in the Middle: 59; Tunnel Under the World: 76)ことがあり、合意への一致がより近づいた(ハミング距離が小さく、いくつかのp値 < 0.01)。
- GPT-3由来の境界は平均的に人間の合意に個々の人間アノテーションより近く、複数の比較で有意な結果を示した(例:Pieman 初回実行:GPT-3 距離 0.261 対 人間 0.281、p=0.045)。
- GPT-3 からの連続的境界確率(改行の対数確率)は、人間の連続的境界同意と有意に相関した(Pieman 第2回で遅延0の相関 r=0.362 まで、p<0.001)。
- 物語全体を通じて、GPT-3 の境界は個々の参加者よりも合意解に近づき、イベントセグメンテーションのための拡張可能な自動アノテーションツールとして GPT-3 を支持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。