Skip to main content
QUICK REVIEW

[論文レビュー] Large Language Models in Analyzing Crash Narratives -- A Comparative Study of ChatGPT, BARD and GPT-4

Maroa Mumtarin, Md Samiullah Chowdhury|arXiv (Cornell University)|Aug 25, 2023
Topic Modeling被引用数 9
ひとこと要約

この論文は、100件の crashed narratives から情報を抽出・分析する際に ChatGPT、BARD、GPT-4 を評価し、過失、衝突様式、作業区間と歩行者の指標、さらに事象の系列ネットワークを比較する。質問間での一致度は変動し、信頼性のために複数モデルの利用を提唱している。

ABSTRACT

In traffic safety research, extracting information from crash narratives using text analysis is a common practice. With recent advancements of large language models (LLM), it would be useful to know how the popular LLM interfaces perform in classifying or extracting information from crash narratives. To explore this, our study has used the three most popular publicly available LLM interfaces- ChatGPT, BARD and GPT4. This study investigated their usefulness and boundaries in extracting information and answering queries related to accidents from 100 crash narratives from Iowa and Kansas. During the investigation, their capabilities and limitations were assessed and their responses to the queries were compared. Five questions were asked related to the narratives: 1) Who is at-fault? 2) What is the manner of collision? 3) Has the crash occurred in a work-zone? 4) Did the crash involve pedestrians? and 5) What are the sequence of harmful events in the crash? For questions 1 through 4, the overall similarity among the LLMs were 70%, 35%, 96% and 89%, respectively. The similarities were higher while answering direct questions requiring binary responses and significantly lower for complex questions. To compare the responses to question 5, network diagram and centrality measures were analyzed. The network diagram from the three LLMs were not always similar although they sometimes have the same influencing events with high in-degree, out-degree and betweenness centrality. This study suggests using multiple models to extract viable information from narratives. Also, caution must be practiced while using these interfaces to obtain crucial safety related information.

研究の動機と目的

  • 3つの公開LLMインターフェース(ChatGPT、BARD、GPT-4)を用いて衝突 narrative からデータベース用情報を抽出する能力を評価する。
  • narrative に基づく安全性質問に対するLLMインターフェースの能力と限界を評価する。
  • 3つのLLMの回答の類似点と相違点を探究し、交通安全分野でのLLM活用の今後の研究を導く。

提案手法

  • アイオワ州とカンザス州の公表済み衝突 narratives 100件(2023年5月)を入力データとして使用。
  • Fault、衝突様式、作業区間の有無、歩行者関与、事象の系列の5つの問いでLLMの3モデルをプロンプトする。
  • 応答ノイズを低減し表形式出力を可能にする、事前定義カテゴリを備えた構造化プロンプトを提供。
  • 各問いに対する応答を分析し、インターフェース間の類似性を評価し、複雑な質問が一致性を低下させる箇所を特定。
  • 問い5については、事象の系列のネットワークを構築し、中心性指標を計算してLLM由来の系列を比較。

実験結果

リサーチクエスチョン

  • RQ1ChatGPT、BARD、GPT-4 は衝突 narratives における過失識別を確実に行えるか。
  • RQ2LLMは narratives から衝突様式を分類できるか。
  • RQ3LLMは narratives から作業区間の有無と歩行者関与を検出できるか。
  • RQ4複雑な事象の系列を生成する際、LLM間でどのような相違が生じるか、中心性が洞察を示せるか。
  • RQ5衝突 narratives を分析する際のモデル間の類似点と限界は何か。

主な発見

  • 過失識別には高いが完全ではない一致が見られ、GPT-4 は他モデルとより一致する場合がある一方、ChatGPT/BARD はしばし cannot determine を返すことが多い。
  • 衝突様式の分類は複雑さのため類似性が低く、モデル間の一致は約35%程度だが、直接的/二値的問いでは高い一致を示す。
  • 作業区間の検出と歩行者関与はモデル間の高い類似性を示し(約96%および89%程度)、LLM が叙述中のこれらの信号を信頼性高く拾い上げている。
  • GPT-4 は作業区間ラベリングでより保守的になりがちであり、BARD は障壁壁、瓦礫の撤去などの作業区間の手掛かりを多く示す可能性がある。
  • 複雑な事象の系列問いではネットワ-diグラム分析でモデル間の相違が現れるが、衝突が交通および固定物と関わる頻繁なパターンが共有され、中心性指標が影響力のある事象を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。