[論文レビュー] The False Promise of Imitating Proprietary LLMs
本論文は、強力なモデル(例: ChatGPT)の出力を用いてオープンモデルをファインチューニングすることによる、商用LLMの模倣を批判的に評価する。広範な模倣は能力ギャップをほぼ埋められないことが多い一方、特定タスクの局所的な模倣はより実現可能である。総じて、模倣よりも基盤となるオープンソースLMを改善する方が効果的である。
An emerging method to cheaply improve a weaker language model is to finetune it on outputs from a stronger model, such as a proprietary system like ChatGPT (e.g., Alpaca, Self-Instruct, and others). This approach looks to cheaply imitate the proprietary model's capabilities using a weaker open-source model. In this work, we critically analyze this approach. We first finetune a series of LMs that imitate ChatGPT using varying base model sizes (1.5B--13B), data sources, and imitation data amounts (0.3M--150M tokens). We then evaluate the models using crowd raters and canonical NLP benchmarks. Initially, we were surprised by the output quality of our imitation models -- they appear far better at following instructions, and crowd workers rate their outputs as competitive with ChatGPT. However, when conducting more targeted automatic evaluations, we find that imitation models close little to none of the gap from the base LM to ChatGPT on tasks that are not heavily supported in the imitation data. We show that these performance discrepancies may slip past human raters because imitation models are adept at mimicking ChatGPT's style but not its factuality. Overall, we conclude that model imitation is a false promise: there exists a substantial capabilities gap between open and closed LMs that, with current methods, can only be bridged using an unwieldy amount of imitation data or by using more capable base LMs. In turn, we argue that the highest leverage action for improving open-source models is to tackle the difficult challenge of developing better base LMs, rather than taking the shortcut of imitating proprietary systems.
研究の動機と目的
- ChatGPTの出力でオープンソースLMをファインチューニングして、タスクを横断して商用モデルに匹敵するかを評価する。
- 模倣データ量、基盤モデルのサイズ、データソースが性能にどう影響するかを調査する。
- クラウドワーカーによる評価と自動評価を比較し、評価の差異を明らかにする。
- 模倣が表面的な指示追従を超えて、事実性、コーディング能力、問題解決能力を向上させるかを評価する。
提案手法
- 模倣データセット上で、1.5B–13B のデコーダー専用LM(GPT-2 1.5B、LLaMA 7B、LLaMA 13B)をファインチューニングする。
- タスク特化型(NQ-synthetic)および広範囲をカバーする模倣データセット(ShareGPT-Mix、HC3、Discord ChatGPT Bots)を作成する。
- 人間クラウド評価(ChatGPTとのブラインドペア比較)とGPT-4、加えて自動ベンチマーク(MMLU、Natural Questions、HumanEval)で評価する。
- 模倣データサイズ(0.3M–150M tokens)と基盤モデルサイズを変化させ、データスケールの効果を調査する。
- 模倣スタイル、事実性、内容の違いを、ターゲットを絞った自動評価で分析する。
実験結果
リサーチクエスチョン
- RQ1ChatGPTの広範囲な模倣は、標準ベンチマークや実務タスクでオープンLMの性能を向上させるか。
- RQ2局所的な(タスク特化型)模倣は、Natural Questionsのような特定タスクでChatGPTとの差を縮められるか。
- RQ3模倣データ量と基盤モデルサイズが、品質と事実性にどう相互作用するか。
- RQ4事実性が劣るにもかかわらず、クラウドワーカー評価が模倣出力をChatGPTと競合すると評価するのはなぜか。
- RQ5オープンソースLM開発とポリシーにとって実用的な意味合いは何か。
主な発見
- 広範囲模倣は、ベースLMと比較してほとんどのタスクで性能を向上させず、場合によっては低下させる。
- 基盤モデルサイズを増やすと一貫して結果が改善される一方、模倣データを追加しても広範囲模倣ではほとんど利益がない。
- タスク特化型(NQ-synthetic)模倣はNatural QuestionsでChatGPTとの差を大きく縮め、局所的模倖がより実現可能であることを示す。
- 模倣モデルはChatGPT風のスタイルを模倣するが、事実性と内容の正確さが劣り、ターゲットを絞った自動評価と実際のベンチマークで示される。
- クラウドワーカーとGPT-4の評価も同様の傾向を示し、スタイル重視の模倣は高く評価される一方、事実内容は遅れをとる。
- 模倣データは毒性を抑える効果があり、ターゲットモデルの安全ガイドラインを継承するが、全体的な利得はスタイルの模倣に限られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。