[論文レビュー] From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond
本論文は OpenAI の o1-preview を医療ベンチマークで評価し、Medprompt で強化された GPT-4 と比較し、医療タスクにおけるランタイム推論の prompting 戦略、推論トークン、費用対パフォーマンスのトレードオフを分析する。
Run-time steering strategies like Medprompt are valuable for guiding large language models (LLMs) to top performance on challenging tasks. Medprompt demonstrates that a general LLM can be focused to deliver state-of-the-art performance on specialized domains like medicine by using a prompt to elicit a run-time strategy involving chain of thought reasoning and ensembling. OpenAI's o1-preview model represents a new paradigm, where a model is designed to do run-time reasoning before generating final responses. We seek to understand the behavior of o1-preview on a diverse set of medical challenge problem benchmarks. Following on the Medprompt study with GPT-4, we systematically evaluate the o1-preview model across various medical benchmarks. Notably, even without prompting techniques, o1-preview largely outperforms the GPT-4 series with Medprompt. We further systematically study the efficacy of classic prompt engineering strategies, as represented by Medprompt, within the new paradigm of reasoning models. We found that few-shot prompting hinders o1's performance, suggesting that in-context learning may no longer be an effective steering approach for reasoning-native models. While ensembling remains viable, it is resource-intensive and requires careful cost-performance optimization. Our cost and accuracy analysis across run-time strategies reveals a Pareto frontier, with GPT-4o representing a more affordable option and o1-preview achieving state-of-the-art performance at higher cost. Although o1-preview offers top performance, GPT-4o with steering strategies like Medprompt retains value in specific contexts. Moreover, we note that the o1-preview model has reached near-saturation on many existing medical benchmarks, underscoring the need for new, challenging benchmarks. We close with reflections on general directions for inference-time computation with LLMs.
研究の動機と目的
- 多様な医療ベンチマークにおける o1-preview の性能を、Medprompt を用いた GPT-4 と比較して評価する。
- 推論ネイティブなモデルの下で、古典的な Medprompt prompting が有益であり続けるかを検討する。
- prompting 戦略、推論トークンの使用、アンサンブルが性能とコストに与える影響を分析する。
- ランタイム戦略の中にコスト-精度パレート前線の存在を探る。
- 推論時の計算と医療分野における今後のベンチマーク開発への示唆を論じる。
提案手法
- MedQA、MedMCQA、MMLU(Medical)、NCLEX、JMLE-2024 などを含む医療ベンチマーク全体に対して o1-preview を体系的に評価する。
- Medprompt スタイルの戦略の有無にかかわらず、o1-preview を GPT-4 および GPT-4o と比較する。
- ゼロショット、few-shot、Medprompt コンポーネントなどの prompting バリアントとアンサンブル手法を検討する。
- 推論トークンの使用とそれが性能に与える影響を分析する。
- API トークン価格を用いてランタイム戦略全体のコストと精度を評価する。
実験結果
リサーチクエスチョン
- RQ1Medprompt prompting を用いた GPT-4 と比較して、o1-preview は多様な医療ベンチマークでどのように性能を発揮するか。
- RQ2推論ネイティブなモデルである o1-preview に対して、古典的な Medprompt prompting 技法は利点をもたらすか。
- RQ3推論トークンの使用とアンサンブルがランタイム戦略の精度とコストに与える影響は何か。
- RQ4医療ベンチマークに対して、ランタイム戦略のコスト-精度パレート前線は存在するか。
- RQ5医療AIにおける推論時の計算とベンチマーク開発への影響は何か。
主な発見
- o1-preview は単純な prompting でも、Medprompt によって導かれる GPT-4 を複数の医療ベンチマークで上回すことが多い。
- few-shot prompting は o1-preview の性能を低下させる傾向があり、一方アンサンブルはコストが高いが一貫した精度向上を提供する。
- より多くの推論トークンは一般に o1-preview の精度と相関し、明示的な CoT prompting は推奨されない。
- GPT-4o は費用対効果のバランスが優れており、多くのタスクで旧式の Medprompt 設定を上回ることがある。
- o1-preview モデルは JMLE-2024 で非英語の医療推論に強さを示し、ランタイム戦略が結果をさらに向上させる。
- 既存の医療ベンチマークの飽和に近いことを示しており、新しく挑戦的なタスクの必要性を強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。