[論文レビュー] Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning
LAMP は大規模言語モデルを統合して提案されたイベント予測について演繹的推論を行い、現実世界データセット全体で最先端のベースラインを超えてイベント列の予測を改善します。
Large language models have shown astonishing performance on a wide range of reasoning tasks. In this paper, we investigate whether they could reason about real-world events and help improve the prediction performance of event sequence models. We design LAMP, a framework that integrates a large language model in event prediction. Particularly, the language model performs abductive reasoning to assist an event sequence model: the event model proposes predictions on future events given the past; instructed by a few expert-annotated demonstrations, the language model learns to suggest possible causes for each proposal; a search module finds out the previous events that match the causes; a scoring function learns to examine whether the retrieved events could actually cause the proposal. Through extensive experiments on several challenging real-world datasets, we demonstrate that our framework -- thanks to the reasoning capabilities of large language models -- could significantly outperform the state-of-the-art event sequence models.
研究の動機と目的
- 豊富なテキスト情報を活用することにより、時刻付きイベント列の予測精度を改善する動機付け。
- ベースのイベント系列モデルと演繹推論のための LLM、およびランキングモデルを結びつける一般的な枠組み(LAMP)を提案。
- 政治的イベント、eコマースなどの実世界データセットにおいて、LAMPが強力なベースラインよりも経験的に優れた効果を示す。
提案手法
- ベースのイベント系列モデルが候補となる将来イベント(時間と種類)を提案する。
- LLM が各提案に対するもっともらしい原因を提案する形で演繹推論を行い、few-shot の専門家デモンストレーションに導かれる。
- 検索モジュールが、LLM 生成の原因と一致する過去のイベントを、SBERT の埋め込みを用いてベクトル検索で取得する。
- 連続時間トランスフォーマーベースのランキングモデルが提案・証拠ペアをスコア付けし、高スコアの予測を選択する。
- ランキングモデルを訓練するため、実イベント信号と非イベント信号を組み合わせた訓練目的を用いる。
- このフレームワークはモデル非依存であり、任意のベースイベントモデルと任意の LLM を組み込むことができる。

実験結果
リサーチクエスチョン
- RQ1現実世界の時系列データにおいて、few-shot のデモンストレーションで LLM にプロンプトを与えると、提案された将来イベントのもっともらしい原因を生成できるか?
- RQ2LLM 生成の原因と取得された証拠を取り入れることで、ベースモデルと比較して将来イベント予測のランキングが改善されるか?
- RQ3検索量とプロンプト設計が、データセット全体で予測性能にどのような影響を与えるか?
- RQ4LAMP アプローチは、異なる LLM やドメイン知識に対して頑健ですか?
- RQ5デモンストレーションに含まれない新しい述語やエンティティへの LAMP の一般化能力は何ですか?
主な発見
- LAMP は複数の現実世界データセットにわたり、ベースの最先端イベント列モデルを一貫して上回る。
- より多くの提案を抽出するほど性能向上が拡大する(LおよびMが大きいほど)、LLM 推論の活用が向上していることを示す。
- GPT-3.5 およびオープンソースの Llama 系の変種が高い性能を示し、フレームワークが閉鎖的モデルだけに依存していないことを示唆する。
- 証拠取得を増やすと、最適点まで性能が向上するが、それを超えるとノイズのため利益が減少する。
- プロンプトのデモンストレーションは結果を改善し、ゼロショット prompting でもいくつかのベースラインを上回ることがあり、LLMs の推論能力を強調している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。