[論文レビュー] SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task
SyntheT2C は、Neo4j の Query-Cypher ペアを生成する 2 つの合成データパイプラインを作成し、Text2Cypher 上での LLM の効果的なファインチューニングを可能にします。データの検証とスケーリングを行い、Cypher の作成性能を改善します。
Integrating Large Language Models (LLMs) with existing Knowledge Graph (KG) databases presents a promising avenue for enhancing LLMs' efficacy and mitigating their "hallucinations". Given that most KGs reside in graph databases accessible solely through specialized query languages (e.g., Cypher), it is critical to connect LLMs with KG databases by automating the translation of natural language into Cypher queries (termed as "Text2Cypher" task). Prior efforts tried to bolster LLMs' proficiency in Cypher generation through Supervised Fine-Tuning (SFT). However, these explorations are hindered by the lack of annotated datasets of Query-Cypher pairs, resulting from the labor-intensive and domain-specific nature of such annotation. In this study, we propose SyntheT2C, a methodology for constructing a synthetic Query-Cypher pair dataset, comprising two distinct pipelines: (1) LLM-based prompting and (2) template-filling. SyntheT2C is applied to two medical KG databases, culminating in the creation of a synthetic dataset, MedT2C. Comprehensive experiments demonstrate that the MedT2C dataset effectively enhances the performance of backbone LLMs on Text2Cypher task via SFT. Both the SyntheT2C codebase and the MedT2C dataset are released in https://github.com/ZGChung/SyntheT2C.
研究の動機と目的
- Neo4j データベースの自然言語と Cypher クエリの間のギャップを橋渡しする。
- 手動アノテーションなしで高品質な合成 Question-Cypher ペアを生成する。
- executable Cypher クエリを作成するようバックボーン LLM の効果的なファインチューニングを可能にする。
- Text2Cypher 研究を支援する検証ツールとデータセットを提供する。
提案手法
- 2 つの補完的なパイプラインが合成 QCy ペアを生成する: (i) semantically diverse Cypher を作成するための LLM ベースの prompting, (ii) テンプレート埋めを行い構文的に複雑な Cypher を生成する。
- データベースのメタデータとスキーマのグラウンディングを抽出し、実行可能な Cypher 生成を保証する。
- 自動検証器(Grammatical, Semantic, Entity, Schema, Coherence)を用いて Cypher を手動検証前にスクリーニングする。
- 高品質なグラウンドトゥルースデータを保証するために、合意投票による手動検証を行う。
- MedT2C を用いて two Neo4j medical databases (LHY and Hetionet) 上で LoRA でバックボーン LLM をファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1SyntheT2C によって生成された合成の Query-Cypher ペアは、 executable Cypher クエリを生成するための LLM の訓練に効果的か?
- RQ22つの合成データパイプラインは、Cypher 作成性能の向上にどのように相補的か?
- RQ3自動および手動のデータ検証が、生成される Cypher の品質と実行正確性にどのような影響を与えるか?
- RQ4合成データセットのスケーリングは Cypher の品質と実行正確性にどの程度影響するか?
- RQ5MedT2C データセットは、Text2Cypher に対してさまざまな LLM ファミリー(オープン/クローズド)をファインチューニングするのに有効か?
主な発見
- MedT2C はファインチューニング後、複数のバックボーン LLM にわたって Cypher 作成品質を改善する。
- 両方のパイプラインを組み合わせると、単一のパイプラインを使用する場合よりも全体的な性能が最大になる。
- 5つの検証器をすべて組み合わせると、アブレーション実験中の Cypher 品質と実行正確性で最大の効果を得られる。
- スケーリングの結果、MedT2C に近いデータセット規模まで性能が向上し、それを超えると収穫減になる。
- テンプレートベースのデータだけでは、 prompting からの補助的な意味データがないとパフォーマンスを妨げる可能性がある。
- MedT2C データセット(LHY と Hetionet から生成された合成データ)は、LLMs が人間が注釈した Cypher に近づく、あるいはそれを上回る品質を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。