[論文レビュー] When Stability Fails: Hidden Failure Modes Of LLMS in Data-Constrained Scientific Decision-Making
この論文は、安定性、正確性、プロンプト感度、および出力の妥当性を分離したLLM支援データ制約下の科学的意思決定タスクにおける制御可能な行動評価を導入し、安定性が高いことが地上 truth や有効な出力と必ずしも一致しないことを示す。
Large language models (LLMs) are increasingly used as decision-support tools in data-constrained scientific workflows, where correctness and validity are critical. However, evaluation practices often emphasize stability or reproducibility across repeated runs. While these properties are desirable, stability alone does not guar- antee agreement with statistical ground truth when such references are available. We introduce a controlled behavioral evaluation framework that explicitly sep- arates four dimensions of LLM decision-making: stability, correctness, prompt sensitivity, and output validity under fixed statistical inputs. We evaluate multi- ple LLMs using a statistical gene prioritization task derived from differential ex- pression analysis across prompt regimes involving strict and relaxed significance thresholds, borderline ranking scenarios, and minor wording variations. Our ex- periments show that LLMs can exhibit near-perfect run-to-run stability while sys- tematically diverging from statistical ground truth, over-selecting under relaxed thresholds, responding sharply to minor prompt wording changes, or producing syntactically plausible gene identifiers absent from the input table. Although sta- bility reflects robustness across repeated runs, it does not guarantee agreement with statistical ground truth in structured scientific decision tasks. These findings highlight the importance of explicit ground-truth validation and output validity checks when deploying LLMs in automated or semi-automated scientific work- flows.
研究の動機と目的
- データ制約下の科学的ワークフローにおけるLLM評価の必要性を安定性を超えて動機づける。
- 安定性、正確性、プロンプト感度、出力妥当性の四つの意思決定次元を分離する制御された行動フレームワークを導入する。
- 地上truth参照として固定された差分表(DE表)を使用し、LLM出力を比較する。
- 閾値設定やプロンプト表現の変更に対する統計的優先遷移の共通の故障モードを特徴づける。
提案手法
- 固定のDESeq2由来の差分表を入力として複数のLLM(ChatGPT、Gemini、Claude)を regime across で照会する。
- 閾値を変える(厳密なFDR ≤ 0.05、緩和した0.05 < FDR ≤ 0.10)、限界ランク付け、および小さなプロンプト表現の変更(P7a vs P7b)を行う。
- 4つの指標(ランダム間安定性=ジャカード、地上truthとの一致度=ジャカード対 truth、プロンプト感度=プロンプト間の差、出力妥当性=無効な遺伝子識別子の有無)で出力を評価する。
- データ変動性からモデル挙動を分離するため、決定論的なプロンプトと構成ごとに10回の反復実行を使用する。
- 再現性のため補足リポジトリにコードと結果を提供する。
実験結果
リサーチクエスチョン
- RQ1高いラン Run-to-Run 安定性は統計的地上truthに対する正確性を示唆するか?
- RQ2固定入力下での小さなプロンプト表現の違いはLLMの意思決定出力にどのように影響するか?
- RQ3統計的閾値の緩和はLLMベースの遺伝子優先度付けにどのような影響を与えるか?
- RQ4安定な出力でもLLMsは無効な遺伝子識別子を生成することがあるか?
主な発見
- LLMsは地上 truthと一致しない場合でもほぼ完璧なラン間安定性を示すことがある。
- プロンプトの小さな文言差が優先度の結果を著しく変えることがある。
- 緩和された統計閾値は信頼性の高い感度改善ではなく過剰選択または崩壊を促す。
- モデルは入力に存在しない構文的には合理的だが無効な遺伝子識別子を出力することがあり、出力妥当性の問題を示す。
- 安定性は内部的な頑健性を反映するが、決定論的な統計参照と一致することを保証しない。
- データ制約下の科学的ワークフローにおいてLLMの挙動を診断するには四次元評価フレームワークが必要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。