[論文レビュー] LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning Tasks
LIFTは、データを文に変換し、アーキテクチャや損失関数を変更せずに標準的なLMファインチューニングを用いることで、非言語タスクに対して事前学習済み言語モデルを微調整します。多様なデータセットにおける分類と回帰で競争力のある結果を達成します。
Fine-tuning pretrained language models (LMs) without making any architectural changes has become a norm for learning various language downstream tasks. However, for non-language downstream tasks, a common practice is to employ task-specific designs for input, output layers, and loss functions. For instance, it is possible to fine-tune an LM into an MNIST classifier by replacing the word embedding layer with an image patch embedding layer, the word token output layer with a 10-way output layer, and the word prediction loss with a 10-way classification loss, respectively. A natural question arises: Can LM fine-tuning solve non-language downstream tasks without changing the model architecture or loss function? To answer this, we propose Language-Interfaced Fine-Tuning (LIFT) and study its efficacy and limitations by conducting an extensive empirical study on a suite of non-language classification and regression tasks. LIFT does not make any changes to the model architecture or loss function, and it solely relies on the natural language interface, enabling "no-code machine learning with LMs." We find that LIFT performs comparably well across a wide range of low-dimensional classification and regression tasks, matching the performances of the best baselines in many cases, especially for the classification tasks. We also report experimental results on the fundamental properties of LIFT, including inductive bias, robustness, and sample complexity. We also analyze the effect of pretraining on LIFT and a few properties/techniques specific to LIFT, e.g., context-aware learning via appropriate prompting, calibrated predictions, data generation, and two-stage fine-tuning. Our code is available at https://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuning.
研究の動機と目的
- 言語モデルのファインチューニングが、モデルのアーキテクチャや損失関数を変更せずに、非言語の下流タスクを解決できるかを調査する。
- 低次元の分類および回帰タスクのセット全体にわたる LIFT の評価。
- LIFT の帰納的バイアス、ロバスト性、サンプル効率性といった特性を理解する。
- プロンプト設計、データ拡張、二段階ファインチューニングを含む、LIFT の性能に影響を与える要因を探る。
提案手法
- 固定テンプレートを用いて各データセットのサンプルを自然言語の文に変換する二段階の手順; 文データセット上で、アーキテクチャや損失関数の変更なしに事前学習済み言語モデル(例: GPT)をファインチューニングする。
- LMファインチューニング中は固定トークン予測クロスエントロピー損失を用いる。
- 推論時には、同じプロンプトでテストサンプルを文に変換し、生成された出力を解析して予測を得る(分類はクラス名の照合で、回帰は数値の解析で)。
- 特徴名を含むリッチプロンプトや一般的な x1,...,xp プロンプトなど、プロンプトのバリエーションを試す。
- 合成データ、OpenMLのタブular、画像由来データセット(MNIST/Fashion-MNISTおよび置換版)など、標準的なベースラインとともに評価する。
- データ拡張や合成前処理タスクを用いた二段階ファインチューニングなど、性能向上を目的とした改善を探索する。特にデータ不足時に効果が見られる。
実験結果
リサーチクエスチョン
- RQ1言語モデルのファインチューニングが、モデルのアーキテクチャや損失関数を変更せずに、非言語の下流タスクを解決できるかを調査する。
- RQ2低次元の分類および回帰タスクのセットで、従来のベースラインと比較して LIFT はどのように性能を発揮するか。
- RQ3プロンプト設計、事前学習、データ生成、キャリブレーション、二段階ファインチューニングなど、LIFT の性能に影響を与える要因とその限界は何か。
- RQ4タスク全体での LIFT のロバスト性、帰納的バイアス、サンプル効率の特性は何か。
- RQ5自然言語データでの事前学習が LIFT にとって重要か、ICL(in-context learning)を代替手段としてどう比較されるか。
主な発見
- LIFTは、さまざまな分類タスクで強力なベースラインと同等の精度を達成し、非線形関係を学習できる。
- LIFTは回帰のために異なる低次元関数を近似でき、いくつかの訓練外れ値シナリオに対してロバストである。
- 特徴名とタスク説明を含む文脈依存プロンプトは、いくつかのOpenML分類データセットで性能を向上させる。
- 合成前処理タスクを用いた二段階ファインチューニングとデータ拡 張は、特にデータが限られている場合に予測性能を改善する。
- LIFTの性能は、自然言語データで事前学習された言語モデルに依存し、ランダムまたはコードベースの事前学習は自然言語事前学習を持つLMには劣る傾向がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。