[論文レビュー] Temporal Knowledge Graph Forecasting Without Knowledge Using In-Context Learning
要約はここに直接の回答を1〜2文で記述します。Paperは、文脈内学習を用いた大規模言語モデルがファインチューニングなしで未来の Temporal Knowledge Graph (TKG) の事実を予測でき、複数のベンチマークで教師あり手法と競合する性能を達成することを示しており、意味情報が除去された場合でも有効です。
Temporal knowledge graph (TKG) forecasting benchmarks challenge models to predict future facts using knowledge of past facts. In this paper, we apply large language models (LLMs) to these benchmarks using in-context learning (ICL). We investigate whether and to what extent LLMs can be used for TKG forecasting, especially without any fine-tuning or explicit modules for capturing structural and temporal information. For our experiments, we present a framework that converts relevant historical facts into prompts and generates ranked predictions using token probabilities. Surprisingly, we observe that LLMs, out-of-the-box, perform on par with state-of-the-art TKG models carefully designed and trained for TKG forecasting. Our extensive evaluation presents performances across several models and datasets with different characteristics, compares alternative heuristics for preparing contextual information, and contrasts to prominent TKG methods and simple frequency and recency baselines. We also discover that using numerical indices instead of entity/relation names, i.e., hiding semantic information, does not significantly affect the performance ($\pm$0.4\% Hit@1). This shows that prior semantic knowledge is unnecessary; instead, LLMs can leverage the existing patterns in the context to achieve such performance. Our analysis also reveals that ICL enables LLMs to learn irregular patterns from the historical context, going beyond simple predictions based on common or recent information.
研究の動機と目的
- 追加の訓練なしで過去の観測だけを用いて未来のTKG事実を予測する動機付け。
- 履歴コンテキストの選択、プロンプト設計、デコーディングがICL性能に与える影響を探る。
- LLMベースのTKG予測に意味知識が必要かどうかを評価する。
- 標準ベンチマーク上でLLMベースのICLと監視付き・アーキテクチャベースのTKG手法を比較する。
提案手法
- TKG予測をLLMを用いた文脈内学習問題として framing する。
- 三段階のパイプライン:(1) 歴史モデリングで関連する過去事実を選択、(2) レキシカル表現またはインデックス表現を用いたプロンプト構築、(3) LLMの出力を事象の確率分布へデコードする。
- エンティティ対ペアの履歴、単方向対双方向履歴、レキシカル対インデックスプロンプトを組み合わせて実験。
- 数値ラベルマッピングを間接ロジットとして用い、エンティティ確率を導出する。
- 標準TKGベンチマーク(WIKI, YAGO, ICEWS14/18, ACLED-CD22)を単一步および多步設定で評価。
- 履歴長とモデルサイズのスケーリングとともに、教師ありベースラインおよびヒューリスティック規則と比較する。
実験結果
リサーチクエスチョン
- RQ1LLMはファインチューニングなしのゼロショットICLでTKG予測を実行できるか。
- RQ2履歴選択(エンティティ対ペア、単方向対双方向)は予測品質にどのように影響するか。
- RQ3意味的事前知識は、未来のTKG事実を予測する際にLLMにとって重要か(例えばレキシカル対数値プロンプト)か。
- RQ4プロンプト設計の選択と履歴長がデータセット全体でHits@kの性能にどう影響するか。
- RQ5命令調整済みモデル(例:GPT-3.5-turbo)はプロンプトの意味的事前知識の恩恵を受けるか。
主な発見
- ICLを用いたLLMは、訓練なしで監視型のSOTA TKG手法と比較してHits@1、Hits@3、Hits@10の競合性能を達成(中央値から-3.6%、+1.5%の範囲である)。
- エンティティ/関係が任意の数値にマッピングされても性能は高いままであり、意味的知識は予測には必須ではないことを示唆。
- LLMsは全データセットで最良のヒューリスティック規則ベースのベースラインを上回り、Hits@1で+10%〜+28%を獲得。
- 履歴長さとモデルスケールはHits@1と正の相関を示し、TKG予測のICL性能にはスケーリング則が存在することを示唆。
- 命令調整済みモデルはレキシカルプロンプトで一部利益を示し、意味的事前知識が特定のプロンプト下でICLを支援する可能性を示唆。
- プロンプトのバリエーションは、ICLが単純な頻度/出現回数バイアスではなく学習済みパターンに依存することを明らかにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。