Skip to main content
QUICK REVIEW

[論文レビュー] Unlocking Compositional Generalization in Pre-trained Models Using Intermediate Representations

Jonathan Herzig, Peter Shaw|arXiv (Cornell University)|Apr 15, 2021
Natural Language Processing Techniques参考文献 46被引用数 51
ひとこと要約

本研究は、中間表現(IR)を設計し、事前学習済みの seq2seq モデルと組み合わせて適用することで、CFQ およびテキスト-to-SQL データセット全体で構成的一般化に大きな改善をもたらし、新しい最先端結果を達成することを示している。

ABSTRACT

Sequence-to-sequence (seq2seq) models are prevalent in semantic parsing, but have been found to struggle at out-of-distribution compositional generalization. While specialized model architectures and pre-training of seq2seq models have been proposed to address this issue, the former often comes at the cost of generality and the latter only shows limited success. In this paper, we study the impact of intermediate representations on compositional generalization in pre-trained seq2seq models, without changing the model architecture at all, and identify key aspects for designing effective representations. Instead of training to directly map natural language to an executable form, we map to a reversible or lossy intermediate representation that has stronger structural correspondence with natural language. The combination of our proposed intermediate representations and pre-trained models is surprisingly effective, where the best combinations obtain a new state-of-the-art on CFQ (+14.8 accuracy points) and on the template-splits of three text-to-SQL datasets (+15.0 to +19.4 accuracy points). This work highlights that intermediate representations provide an important and potentially overlooked degree of freedom for improving the compositional generalization abilities of pre-trained seq2seq models.

研究の動機と目的

  • 事前学習済みモデルを用いた意味解析の構成的一般化の改善を動機づける。
  • 中間表現が自然言語と意味表現の構造的ギャップを埋められるかを調査する。
  • モデルアーキテクチャを変更せずにIRを活用するモデルに依存しない二段デコーディングを実演する。
  • 事前学習と相乗効果を発揮するIRの設計原則を特定する。
  • 複数の形式(SPARQL、SQL、SCAN)とデータセットにわる向上を定量化する。

提案手法

  • 自然言語との構造的一致性を高めるため、可逆IRとロス IRを定義する。
  • Seq2Seq_1を訓練してxを中間表現zに写像し、次に逆変換(可逆IR)またはxとzに条件づけられた別のモデル(ロスIR)でyを回復する。
  • NLと形式言語の不整合を減らし、プログラム構造の類似性を高め、必要に応じて中括弧で階層的スコーピングを導入するようIRを設計する。
  • CFQ(MCD分割)とテンプレート分割を持つ3つのテキスト-to-SQLデータセット、および長さ・左折などのSCAN分割で評価する。
  • 事前学習済みのT5モデルを(x, z)または(x, [SEP], z)のペアでファインチューニングし、IRなしデコードのベースラインと比較する。
  • RIRとLIRおよびそれらの組み合わせの寄与を理解するためのアブレーションを実施し、事前学習との相互作用を分析する。

実験結果

リサーチクエスチョン

  • RQ1中間表現(IR)が、アーキテクチャを変えずに事前学習済みseq2seqモデルの構成的一般化を改善できるか?
  • RQ2どのIR設計(可逆 vs ローシー)と特定の設計選択がNL–プログラムの不一致を最も効果的に減らし、一般化を改善するか?
  • RQ3IRは事前学習と相乗効果を生み出し、CFQとテキスト-to-SQLのテンプレートで従来の最先端を上回るか?
  • RQ4IRはi.i.d.分割での性能を維持しつつ構成的一般化を高めるか?
  • RQ5IR設計がモデルの事前学習とアーキテクチャ的能力への依存度にどのように影響するか?

主な発見

  • IRと事前学習の組み合わせは構成的分割で大きな向上をもたらす:CFQは精度ポイント14.8上昇、3つのtext-to-SQLデータセットのテンプレート分割は15.0〜19.4ポイント上昇。
  • 可逆IR(RIR)は構成的一般化を大幅に向上させ、ロスIR(LIR)と組み合わせるとさらなる効果が得られる(LIR.ind)。
  • T5-base/large/3B では、最良のIRがCFQおよびテキスト-to-SQLのテンプレート分割で従来の最先端を上回りつつ、i.i.d.性能を維持する。
  • ゴールドIRを使用したアブレーションではIRがほぼオラクル級の性能を可能にし、IRからの情報的な利得が大きいことを示している。
  • IRは主に事前学習と併用することで効果を発揮する。事前学習なしのモデルではIRからの利得は控えめか負になる。
  • CFQ: RIR単独で強い改善をもたらすが、LIR単独は一貫性に欠ける。組み合わせたIRが最良の結果を提供。
  • Text-to-SQL: RIRとLIR plus RIR で ATIS、GeoQuery、Scholar 全体で大幅な向上。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。