QUICK REVIEW

[論文レビュー] Model Selection versus Model Averaging in Dose Finding Studies

Kirsten Schorning, Björn Bornkamp|arXiv (Cornell University)|Jan 1, 2015

Statistical Methods in Clinical Trials参考文献 12被引用数 1

ひとこと要約

本稿は、第II相用量探索試験におけるモデル選択とモデル平均化の比較を行い、漸近的理論と大規模なシミュレーションを通じてAICやBICなどの基準を評価している。モデル平均化は、用量応答曲線とターゲット用量の推定において一貫してモデル選択を上回ることを示しており、ブートストラップに基づく平均化は不確実性の評価において実用的な利点を有する。

ABSTRACT

Phase II dose finding studies in clinical drug development are typically conducted to adequately characterize the dose response relationship of a new drug. An important decision is then on the choice of a suitable dose response function to support dose selection for the subsequent Phase III studies. In this paper we compare different approaches for model selection and model averaging using mathematical properties as well as simulations. Accordingly, we review and illustrate asymptotic properties of model selection criteria and investigate their behavior when changing the sample size but keeping the effect size constant. In a large scale simulation study we investigate how the various approaches perform in realistically chosen settings. Finally, the different methods are illustrated with a recently conducted Phase II dosefinding study in patients with chronic obstructive pulmonary disease.

研究の動機と目的

現実的な条件下における第II相用量探索試験におけるモデル選択とモデル平均化の性能を評価すること。
AICやBICといったモデル選択基準の漸近的性質と、標本サイズの変動や固定効果サイズ下での挙動を調査すること。
候補モデル集合にANOVAモデルを含めることによる推定精度とモデル選択性能への影響を評価すること。
推定効率性と信頼区間のカバレッジを観点に、重みベースの平均化とブートストラップベースの平均化手法を比較すること。
規制薬物開発の文脈において、モデル選択とモデル平均化の間でどのように選択すべきかを実用的指針として提供すること。

提案手法

著者らは漸近的理論を用いてAICとBIC基準を比較し、AICは過剰に複雑なモデルを好む傾向がある一方で、BICは一貫性を示すことを示した。
大規模なシミュレーションスタディにより、複数の候補モデルセット、標本サイズ、効果サイズにおいてモデル選択と平均化の性能を評価した。
モデル平均化は重みベース（AIC/BIC重み）およびブートストラップベースの手法を用いて実装され、ロバストネスと不確実性の評価の両面を検証した。
事例研究では、COPD試験（NCT00501852）の実データ（1群あたり50例）を用い、観察された推定値に一致する平行群デザインを模擬した。
ターゲット用量の推定は、FEV1で臨床的に意味のある効果δ = 0.1–0.14 Lを達成することを基準とし、すべての手法に対して95%信頼区間を計算した。
平均二乗誤差、信頼区間のカバレッジ確率、ターゲット用量推定の正確性といった指標を用いて性能を評価した。

実験結果

リサーチクエスチョン

RQ1AICとBIC基準は、モデル選択の一貫性と過学習の観点から、漸近的にどのように性能を示すか？
RQ2モデル平均化は、モデル選択に比べて、より正確で信頼性の高い用量応答曲線推定を可能にするか？
RQ3候補モデル集合にANOVAモデルを含めることで、モデル選択および平均化手法の性能にどのような影響を与えるか？
RQ4不確実性の評価という観点から、重みベースの平均化に比べてブートストラップベースの平均化に実用的な利点はあるか？
RQ5現実的な第II相試験設計において、どのモデル選択または平均化手法が最も正確なターゲット用量推定をもたらすか？

主な発見

モデル平均化は、すべてのシミュレーション状況において一貫してモデル選択を上回り、用量応答曲線の推定がより正確で、信頼区間のカバレッジも良好であった。
ANOVAモデルを候補集合から除外した場合、AIC基準はBIC基準よりもわずかに優れていたが、AICはANOVAモデルをあまりに頻繁に選択し、性能を低下させた。
ANOVAモデルを候補集合に含めると、AIC基準の性能が低下した。これは、モデル集合にANOVAを追加しても限定的な価値があるとは言えないと示唆している。
BIC型基準は、推定曲線とその標準誤差が同一であっても、異なる標本サイズで異なるモデルを選択する傾向を示し、設計段階での制限を浮き彫りにした。
ブートストラップベースのモデル平均化は、モデル不確実性を補正した信頼区間の計算が直感的かつ容易に行えるため、重みベースの手法に比べて実用的な利点を有した。
COPD事例研究において、AICとブートストラップを用いたモデル平均化は、ターゲット用量を50 mgと推定し、最大効果の91.22%を達成し、95%信頼区間は[50.00%, 164.21%]であった。これは、応答が plateau（平台）に近い形状であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。