QUICK REVIEW

[論文レビュー] Robust benchmarking in noisy environments

Jiahao Chen, Jarrett Revels|arXiv (Cornell University)|Aug 15, 2016

Parallel Computing and Optimization Techniques参考文献 24被引用数 67

ひとこと要約

本論文では、タイマー誤差、OSのジャイタ、非i.i.d.なタイミング分布が存在する状況下でも、真のパフォーマンスの信頼性の高い推定として、複数回の実行における最小実行時間を利用する、耐性のあるベンチマーキング手法を提案する。このアプローチは、非正規のタイミング統計を説明する遅延モデルに裏打ちされており、BenchmarkTools Juliaパッケージに実装されており、2016年以降にJuliaのCIパイプラインで30件以上の深刻なパフォーマンスの regressions を防止した。

ABSTRACT

We propose a benchmarking strategy that is robust in the presence of timer error, OS jitter and other environmental fluctuations, and is insensitive to the highly nonideal statistics produced by timing measurements. We construct a model that explains how these strongly nonideal statistics can arise from environmental fluctuations, and also justifies our proposed strategy. We implement this strategy in the BenchmarkTools Julia package, where it is used in production continuous integration (CI) pipelines for developing the Julia language and its ecosystem.

研究の動機と目的

誤ったパフォーマンス結論を導く、統計的に不十分なアドホックなベンチマーキング実践の問題に対処すること。
継続的統合およびインタラクティブ利用に適した、言語およびプラットフォームに依存しないベンチマーキング手法を開発すること。
非i.i.d.で裾が重いタイミング測定値に対して、従来の統計的手法（例：平均、中央値、t検定）の限界を克服すること。
環境の変動やタイミング測定誤差に対して感受性が低く、実用的で自動化可能なソリューションを提供すること。

提案手法

シリアル命令パイプラインにおけるランダム遅延の系列として、タイミングのばらつきをモデル化し、実証的分布における歪み、二峰性、ドリフトを説明する。
外部の遅延による時間短縮がないことから、複数回の実行における最小観測実行時間を真のパフォーマンスの頑健な推定として提案する。
タイマーの不正確さを所定のしきい値未満に抑えるために、1回の測定あたりに必要な実行回数の最小値を決定するアルゴリズム（Alg. 1）を開発する。
BenchmarkTools Juliaパッケージにこの戦略を実装し、JuliaのCIパイプラインにおける自動的で生産用途に適したパフォーマンスレグRESSION検出を可能にする。
実際のJuliaベンチマークからの実証データを用いて、モデルと推定器の性能を検証する。
遅延の累積分布を推定するためのルックアップテーブルとパラメトリックモデル（式11）を導入し、観測されたタイミング特性に合わせてパラメータを調整する。

実験結果

リサーチクエスチョン

RQ1単純なコードであっても、高性能アプリケーションのタイミング測定が、非i.i.i.d.で裾が重く、多峰性を持つ分布を示すのはなぜか？
RQ2環境ノイズやタイマーの不正確さが存在する状況下でも、複数回の実行における最小実行時間は、真のパフォーマンスの頑健で正確な推定として機能するか？
RQ3特権アクセスや環境の硬化を必要とせずに、OSのジャイタ、CPU周波数スケーリング、その他のシステムレベルの変動に対して感受性の低いベンチマーキング戦略をどのように設計できるか？
RQ4タイマーの不正確さが観測されたパフォーマンス推定に支配的にならないようにするために、1回の測定あたりに必要な最小実行回数はどれくらいか？
RQ5従来のアプローチ（平均、中央値、パラメトリックな外れ値除去など）と比較して、提案手法は本物のパフォーマンスレグRESSIONをどれほど効果的に検出できるか？

主な発見

非i.i.d.で裾が重いタイミング分布の下では、平均や中央値よりも、複数回の実行における最小実行時間が真のパフォーマンスの推定としてより頑健で正確である。
モデルは、キャッシュミスやコンテキストスイッチングなどのシステムレベルのイベントに起因する累積遅延として、観測されたタイミング行動（歪み、二峰性、ドリフト）を説明できる。
ベンチマークを複数回実行することで、タイマーの不正確さが効果的に相殺され、低精度タイマーであってもパフォーマンス推定への影響が軽減される。
2016年以降にJuliaの標準ライブラリで、最小時間に30％以上の増加を示す深刻なパフォーマンスレグRESSIONを、自動CIテストにより効果的に検出・防止した。
BenchmarkToolsへの実装により、Juliaエコシステムの1,300件以上のベンチマークで、完全に自動化され、生産用途に適したパフォーマンスレグRESSION検出が可能になった。
経験的に調整されたパrameterを有するパラメトリックモデル（式11）は、観測された遅延分布とよく一致しており、基礎となる遅延モデルの妥当性を支持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。