[論文レビュー] Knowledge Graph Completion Models are Few-shot Learners: An Empirical Study of Relation Labeling in E-commerce with LLMs
この論文は、few-shot relation labeling のために大規模言語モデル(PaLM および GPT-3.5)を評価し、1–5 のラベル付き例で従来の KG 完成モデルを上回り、人間のラベリングと同等またはそれを超える可能性があることを示す。
Knowledge Graphs (KGs) play a crucial role in enhancing e-commerce system performance by providing structured information about entities and their relationships, such as complementary or substitutable relations between products or product types, which can be utilized in recommender systems. However, relation labeling in KGs remains a challenging task due to the dynamic nature of e-commerce domains and the associated cost of human labor. Recently, breakthroughs in Large Language Models (LLMs) have shown surprising results in numerous natural language processing tasks. In this paper, we conduct an empirical study of LLMs for relation labeling in e-commerce KGs, investigating their powerful learning capabilities in natural language and effectiveness in predicting relations between product types with limited labeled data. We evaluate various LLMs, including PaLM and GPT-3.5, on benchmark datasets, demonstrating their ability to achieve competitive performance compared to humans on relation labeling tasks using just 1 to 5 labeled examples per relation. Additionally, we experiment with different prompt engineering techniques to examine their impact on model performance. Our results show that LLMs significantly outperform existing KG completion models in relation labeling for e-commerce KGs and exhibit performance strong enough to replace human labeling.
研究の動機と目的
- LLMs の能力を実証し、eコマースの知識グラフにおいて製品タイプ間の補完的および代替的な関係を few labels でラベリングできることを示す。
- few-shot ラベリングにおける LLM の性能へのプロンプト設計の影響を評価する。
- 従来の KG 完成モデルおよび人間のラベリングと LLM の性能を比較する。
- LLM の説明が人間のラベリング決定と一致するか、または影響を与えるかどうかを調査する。
提案手法
- Electronics および Instacart の製品タイプデータセットで is_complementary_to、is_substitutable_for、または is_irrelevant_to 関係を評価する。
- 各関係につき 0–5 のラベル付き例を用いて few-shot 学習効果を検討する。
- 4 つのプロンプト設計原則を適用:明瞭性、関連性、入力/出力の明確なフォーマット;Baseline、関係説明、および few-shot プロンプトを評価する。
- 補完的および代替的関係について、人間のコンセンサスラベルに対する正確さ、適合率、再現率を測定する。
実験結果
リサーチクエスチョン
- RQ1LLMs は、eコマース知識グラフにおける限定的なラベルデータで競争力のある、または優れた関係ラベリング精度を達成できるか?
- RQ2プロンプト設計と few-shot の例が LLM の関係ラベリング性能にどう影響するか?
- RQ3LLMs は人間のラベリングと一致する説明を提供しうるか、またその説明は人間の再ラベリングに影響を及ぼすか?
- RQ4限られた訓練データで、伝統的な KG モデルと比べて LLM はどの程度精度が高いか?
- RQ5最小限のラベルデータで、異なるeコマースデータセットに対して LLM はスケーラブルか?
主な発見
| Dataset | LLM | Prompt | Complementary | Substitutable | Accuracy | Precision (Complementary) | Recall (Complementary) | Precision (Substitutable) | Recall (Substitutable) |
|---|---|---|---|---|---|---|---|---|---|
| Electronics | PaLM | Baseline | 0.389 | 0.807 | 0.575 | 0.083 | 0.500 | 0.500 | 0.676 |
| Electronics | PaLM | zero_shot | 0.424 | 0.678 | 0.676 | 0.240 | 0.500 | 0.500 | 0.676 |
| Electronics | PaLM | one_shot | 0.446 | 0.667 | 0.695 | 0.227 | 0.417 | 0.500 | 0.695 |
| Electronics | PaLM | few_shot_3 | 0.506 | 0.633 | 0.738 | 0.222 | 0.500 | 0.500 | 0.738 |
| Electronics | PaLM | few_shot_5 | 0.507 | 0.580 | 0.725 | 0.136 | 0.500 | 0.500 | 0.725 |
| Instacart | PaLM | Baseline | 0.599 | 0.786 | 0.645 | 0.167 | 0.444 | 0.444 | 0.699 |
| Instacart | PaLM | zero_shot | 0.705 | 0.656 | 0.699 | 0.161 | 0.556 | 0.556 | 0.699 |
| Instacart | PaLM | one_shot | 0.664 | 0.740 | 0.712 | 0.300 | 0.333 | 0.333 | 0.712 |
| Instacart | PaLM | few_shot_3 | 0.699 | 0.725 | 0.726 | 0.222 | 0.444 | 0.444 | 0.726 |
| Instacart | PaLM | few_shot_5 | 0.711 | 0.733 | 0.739 | 0.250 | 0.444 | 0.444 | 0.739 |
| Electronics | GPT-3.5 | Baseline | 0.636 | 0.519 | 0.572 | 0.091 | 0.778 | 0.778 | 0.572 |
| Electronics | GPT-3.5 | zero_shot | 0.595 | 0.695 | 0.632 | 0.125 | 0.444 | 0.444 | 0.632 |
| Electronics | GPT-3.5 | one_shot | 0.598 | 0.656 | 0.622 | 0.135 | 0.556 | 0.556 | 0.622 |
| Electronics | GPT-3.5 | few_shot_3 | 0.659 | 0.618 | 0.635 | 0.133 | 0.667 | 0.667 | 0.635 |
| Electronics | GPT-3.5 | few_shot_5 | 0.632 | 0.695 | 0.666 | 0.167 | 0.444 | 0.444 | 0.666 |
- LLMs は eコマース KGs の関係ラベリングで既存の KG モデルを大幅に上回り、最低でも 40.6% の改善を実現。
- PaLM および GPT-3.5 は、関係ごとに 1–5 のラベル付き例だけを用いて競争力のある精度を示す。
- 関係説明と few-shot の例を含むプロンプト設計は、_baseline_ からの精度を大幅に向上させる(例:約 17.6% から約 28.3% の改善)。
- LLMs はラベリング決定の説明を提供でき、説明を読んだ後は人間のラベラーがその説明に同意する可能性が高い。
- LLMs の性能は Electronics および Instacart データセットの両方で堅牢で、場合によっては人間のラベリングと同等またはそれを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。