Skip to main content
QUICK REVIEW

[論文レビュー] LongForm: Effective Instruction Tuning with Reverse Instructions

Abdullatif Köksal, Timo Schick|arXiv (Cornell University)|Apr 17, 2023
Topic Modeling被引用数 11
ひとこと要約

この論文は LongForm-C を逆指示によって構築した指示チューニングデータセットを紹介し、LongForm モデルが長文生成と関連タスクで従来の指示チューニング済み LMs を上回ることを示す。データとモデルも公開リリースされる。

ABSTRACT

Instruction tuning enables language models to more effectively generalize and better follow user intent. However, obtaining instruction data is costly and challenging. Prior work employs methods such as expensive human annotation, crowd-sourced datasets with alignment issues, and generating noisy examples via LLMs. We introduce the LongForm-C dataset, which is created by reverse instructions. We generate instructions via LLMs for human-written corpus examples using reverse instructions. First we select a diverse set of human-written documents from corpora such as C4 and Wikipedia; then we generate instructions for these documents via LLMs. This approach provides a cheaper and cleaner instruction-tuning dataset with natural output and one suitable for long text generation. Our models outperform 10x larger language models without instruction tuning on tasks such as story/recipe generation and long-form question answering. Moreover, LongForm models outperform prior instruction-tuned models such as FLAN-T5 and Alpaca by a large margin, and improve language understanding capabilities further. We publicly release our data and models: https://github.com/akoksal/LongForm.

研究の動機と目的

  • 逆指示を活用することで、LM指示チューニングのための指示データのコスト削減と品質向上を動機づける。
  • コーパス由来の成果物とLLM生成の指示を組み合わせた、多様な長文生成データセット(LongForm-C)を作成する。
  • LongForm 調整済みモデルが、生成および一部のNLUタスクにおいて従来の指示調整ベースラインを上回ることを示す。
  • 多言語での指示追従能力と、訓練分布外のタスクへの一般化を示す。

提案手法

  • LongForm-C を、15k 件のコーパス例(逆指示を介して)と、構造化コーパスやNLPタスクからの12,739 件の例を組み合わせて構築する。
  • GPT-3 (text-davinci-003) をゼロショットプロンプトで用い、各コーパス例の指示を生成する。形式的/非形式的/検索エンジン風など多様なスタイルと長さ制御を組み込む。
  • データの一部について出力長を調整する長さ制御テンプレートを組み込む。
  • LongForm-T5-3B/LongForm-OPT-6.7B/LongForm-LLaMA-7B の3モデルを LongForm-C 上で、自己回帰モデル用の end-of-instruction トークンを追加してファインチューニングする。
  • 長文生成、NLP風の長い出力、そして多言語タスクにおいて、ベースライン(T0++, Tk-Instruct, Flan-T5, Alpaca, OPT-30B)と比較する。
  • 主に METEOR を用いて評価し、付録に BLEU、ROUGE、self-BLEU を報告、さらに分野外および多言語ベンチマークを含む。

実験結果

リサーチクエスチョン

  • RQ1逆指示生成データは、長文生成のための費用対効果が高く品質の高い指示チューニング素材を提供できるか?
  • RQ2LongForm モデルは、長文生成、長文 QA、物語、レシピ、そして多言語タスクで、従来の指示チューニングモデルより改善するか?
  • RQ3LongForm-C は FLAN と組み合わせるまたは比較する際に、MMLU などの言語理解(NLU)指標を向上させるか?
  • RQ4LongForm モデルは多言語指示に従い、対象言語でテキストを生成することができるか?
  • RQ5LongForm-C の構成と多様性はどのようなもので、それがモデル性能にどう影響するか?

主な発見

  • LongForm モデルは、複数のアーキテクチャに跨る長文生成タスクで従来の指示チューニング済み LM を上回る。
  • LongForm-OPT-6.7B と LongForm-LLaMA-7B は強い結果を達成し、LongForm-LLaMA-7B はしばし OPT-6.7B より優れていることが多く、モデルファミリーに関する既存の所見と一致する。
  • LongForm モデルは、レシピ生成、ELI5、Writing Prompts タスクでベースラインと比べて分野外での一般化性能が高い。
  • 言語理解において、LongForm-C は NLG タスクを改善し、FLAN と組み合わせた場合、試験された構成の中で最良の 5-shot MMLU 性能を示す。
  • 多言語ニュース生成の実験では、LongForm モデルがドイツ語・スペイン語・フランス語・ロシア語の出力でベースラインを上回り、長Form-LLaMA-7B が多言語設定で最良の性能を示す。
  • 人間評価は、97/100 の指示がコーパス例と関連していることを示し、逆指示アプローチの高い妥当性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。