[論文レビュー] CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via Cycle Training
CycleGT は、監督付きモデルと競合する WebNLG での結果と GenWiki での大きな向上を持つ、非並列データを用いた自己回帰のサイクル訓練フレームワークで、グラフからテキストおよびテキストからグラフ生成を同時に学習します。
Two important tasks at the intersection of knowledge graphs and natural language processing are graph-to-text (G2T) and text-to-graph (T2G) conversion. Due to the difficulty and high cost of data collection, the supervised data available in the two fields are usually on the magnitude of tens of thousands, for example, 18K in the WebNLG~2017 dataset after preprocessing, which is far fewer than the millions of data for other tasks such as machine translation. Consequently, deep learning models for G2T and T2G suffer largely from scarce training data. We present CycleGT, an unsupervised training method that can bootstrap from fully non-parallel graph and text data, and iteratively back translate between the two forms. Experiments on WebNLG datasets show that our unsupervised model trained on the same number of data achieves performance on par with several fully supervised models. Further experiments on the non-parallel GenWiki dataset verify that our method performs the best among unsupervised baselines. This validates our framework as an effective approach to overcome the data scarcity problem in the fields of G2T and T2G. Our code is available at https://github.com/QipengGuo/CycleGT.
研究の動機と目的
- グラフからテキスト (G2T) および テキストからグラフ (T2G) タスクのデータ不足を解消するため、非並列のグラフとテキストデータからの無監督学習を実現する。
- G2T と T2G が互いに逆写像として機能し、循環的に互いを改善するサイクル訓練フレームワークを開発する。
- CycleGT が WebNLG 2017/2020 で監督付き手法と競合する結果を達成し、無監督設定下で GenWiki で優れた性能を示すことを実証する。
提案手法
- G2T を線形化されたグラフをテキストへマッピングする T5 ベースの系列対系列モデルとして定式化する。
- T2G をNER でエンティティを抽出し、エンティティ埋め込みを導出し、マルチラベル分類器を用いてペアワイズエッジ関係を予測する。
- グラフとテキストの間で逆翻訳を行う循環損失を導入し、合成されたペアデータを作成する:L_CycT および L_CycG。
- 中間出力の非微分可能性を扱いながら、循環損失を最小化するために G2T と T2G を交互に更新する反復的バックトランスレーションを採用する。
- 明示的な (t,g) ペアがなくても、非並列データ D_T(テキストコーパス)と D_G(グラフ)を用いて CycleGT を学習する。
- WebNLG および GenWiki データセットで 30 エポックのトレーニングを行い、G2T のために T5、T2G は BiLSTM ベースで実装する。
実験結果
リサーチクエスチョン
- RQ1非並列データから高品質な G2T および T2G 生成を実現するために、無監督のサイクル訓練は有効か。
- RQ2CycleGT は標準の G2T および T2G ベンチマークで監督付きベースラインと比較してどうなるか。
- RQ3WebNLG を超える大規模な非並列データ( GenWiki など)へ CycleGT は一般化できるか。
- RQ4離散的な中間出力を伴うサイクル訓練の実用的な課題と、それらをどう解決できるか。
主な発見
| データセット | G2T BLEU | G2T METEOR | G2T ROUGE-L | G2T CIDEr |
|---|---|---|---|---|
| WebNLG 2017 (CycleGT unsup.) | 55.5 | 0.437 | 68.3 | 3.81 |
- CycleGT は WebNLG 2017 の G2T で無監督設定で BLEU 55.5 を達成し、いくつかの監督付きベースラインと競合する。
- WebNLG 2017 での CycleGT の T2G パフォーマンスは、同じアーキテクチャを用いて監督付きデータで訓練された G2T コンポーネントと同等である。
- GenWiki では、CycleGT は教師なしベースラインを大幅に上回り(FINE データで最良の無監督ベースラインより約 +11 BLEU、FULL データで約 +6 BLEU)、優れた性能を示す。
- CycleGT は無監督のサイクル訓練が G2T と T2G のデータ不足問題を効果的に解決し、非並列データで強力な結果を達成できることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。