QUICK REVIEW

[論文レビュー] Quantifying Performance Changes with Effect Size Confidence Intervals

Tomáš Kalibera, Richard Jones|arXiv (Cornell University)|Jul 21, 2020

Software System Performance and Reliability参考文献 37被引用数 23

ひとこと要約

本論文は、ランダム効果とフィラーサブの定理を用いた統計的モデルを提案し、実行時間のばらつきや非決定的コンパイルといった非決定的要因を考慮することで、性能比推定値（例：スピードアップ）の不確実性を定量化する。これにより、95%信頼水準で「5.5% ± 2.5%」のような信頼区間を提供でき、現在の実践では不確実性や非決定性を無視しているのとは対照的に、より厳密で解釈可能な代替手法を提供する。

ABSTRACT

Measuring performance & quantifying a performance change are core evaluation techniques in programming language and systems research. Of 122 recent scientific papers, as many as 65 included experimental evaluation that quantified a performance change using a ratio of execution times. Few of these papers evaluated their results with the level of rigour that has come to be expected in other experimental sciences. The uncertainty of measured results was largely ignored. Scarcely any of the papers mentioned uncertainty in the ratio of the mean execution times, and most did not even mention uncertainty in the two means themselves. Most of the papers failed to address the non-deterministic execution of computer programs (caused by factors such as memory placement, for example), and none addressed non-deterministic compilation. It turns out that the statistical methods presented in the computer systems performance evaluation literature for the design and summary of experiments do not readily allow this either. This poses a hazard to the repeatability, reproducibility and even validity of quantitative results. Inspired by statistical methods used in other fields of science, and building on results in statistics that did not make it to introductory textbooks, we present a statistical model that allows us both to quantify uncertainty in the ratio of (execution time) means and to design experiments with a rigorous treatment of those multiple sources of non-determinism that might impact measured performance. Better still, under our framework summaries can be as simple as "system A is faster than system B by 5.5% $\pm$ 2.5%, with 95% confidence", a more natural statement than those derived from typical current practice, which are often misinterpreted. November 2013

研究の動機と目的

プログラミング言語およびシステム分野の研究における性能評価において、不確実性の報告が広く欠落している問題に対処する。
実行時間の変動や非決定的コンパイルを含む、性能変動の非決定的要因に取り組む。
現実的な実験条件下で性能比（例：スピードアップ）の正確な信頼区間を可能にする統計的モデルを開発する。
有意性検定や信頼区間の視覚的重複に依存する現在の実践とは対照的に、より解釈可能で科学的に厳密な代替手法を提供する。
再現性および妥当性を高めるために、実験設計および報告の質を向上させる。

提案手法

実行内ばらつき、実行間変動、非決定的コンパイルといった複数の非決定的要因を捉える階層的ランダム効果モデルとして性能測定を形式化する。
このランダム効果モデル下で、2つの平均（例：システムAとBの実行時間）の比の信頼区間を計算するためにフィラーサブの定理を適用する。
繰り返し測定による複数のばらつきレベル（例：複数回のコンパイル、複数回の実行）から分散成分を同時に推定するために、経験的ベイズ推定を用いる。
精度とコストのバランスを取るために、異なるレベル（例：コンパイル、実行）における繰り返し回数を最適化する実験プロトコルを設計する。
統計的シミュレーションを用いて、実ベンチマーク（例：FFT、Ping）上で本手法を検証し、既存の実践と比較して、カバレッジおよび第一種過誤率を評価する。
実用的報告への統合により、『システムAはBより5.5% ± 2.5% 95%信頼水準で速い』といった簡潔で解釈可能な記述を可能にする。

実験結果

リサーチクエスチョン

RQ1実行時間の変動や非決定的コンパイルといった複数の非決定的要因が存在する状況で、性能比推定値の不確実性をどのように厳密に定量化できるか？
RQ2複数の実験レベルにおけるランダム効果を考慮する統計的モデルは、現在の実践と比較して性能評価の正確性と信頼性を向上させることができるか？
RQ3非決定的コンパイルが性能測定に与える影響は何か？そして、それを体系的にモデル化・軽減する方法はあるか？
RQ4複数回の実行や複数回のコンパイルといった異なる繰り返し戦略は、性能評価の精度と効率にどのように影響するか？
RQ5有意性検定や信頼区間の視覚的重複に依存する既存のアプローチと比較して、本手法はどの程度優れているか？

主な発見

提案手法は、現在の実践が不確実性推定を完全に無視するのとは対照的に、性能比の信頼区間をより正確かつ解釈可能に生成する。
非決定的コンパイルは性能測定に顕著な影響を与える — 例えば、Monoで同じソースコードを繰り返しコンパイルしたところ、実行時間が異なった。このため、明示的なモデル化が不可欠である。
本手法により最適化された実験設計が可能になる — 例えば、Pingでは繰り返し実行は不要であるが、FFTでは繰り返しコンパイルが変動を捉えるために不可欠である。
フレームワークにより、『システムAはBより5.5% ± 2.5% 95%信頼水準で速い』といった簡潔で自然な報告が可能となり、有意性に基づく記述よりも直感的で誤解の少ない表現が可能になる。
信頼区間の視覚的重複に依存する既存の手法は、2値的で情報量が少なく、性能比の実際の区間推定に比べて劣る。
統計的シミュレーションの結果、本手法は現実的な条件下でも適切なカバレッジおよび第一種過誤率を維持しており、信頼性が裏付けられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。