QUICK REVIEW

[論文レビュー] Deoptless: Speculation with Dispatched On-Stack Replacement and Specialized Continuations

Olivier Flückiger, Jan Ječmen|arXiv (Cornell University)|Mar 4, 2022

Parallel Computing and Optimization Techniques参考文献 26被引用数 5

ひとこと要約

この論文では、従来のデオプティマイゼーションに代わり、特定化された継続をディスpatchすることで、予測的最適化が失敗した場合のパフォーマンス劣化を回避する、ジャストインタイムコンパイル技術であるdeoptlessを紹介する。実行時コンテキストに基づいて動的に最適化された継続を選択することで、deoptlessは失敗した予測的最適化からの回復をより高速に可能にし、実世界のベンチマークにおいてベースラインのデオプティマイゼーションと比較して最大35倍の高速化を達成する。

ABSTRACT

Just-in-time compilation provides significant performance improvements for programs written in dynamic languages. These benefits come from the ability of the compiler to speculate about likely cases and generate optimized code for these. Unavoidably, speculations sometimes fail and the optimizations must be reverted. In some pathological cases, this can leave the program stuck with suboptimal code. In this paper we propose deoptless, a technique that replaces deoptimization points with dispatched specialized continuations. The goal of deoptless is to take a step towards providing users with a more transparent performance model in which mysterious slowdowns are less frequent and grave.

研究の動機と目的

ジャストインタイムコンパイラにおけるデオプティマイゼーションによるパフォーマンス劣化の問題を解決すること。
予測的最適化が失敗した場合に、より遅いティアにデオプティマイズする必要を排除すること。
動的言語におけるより予測可能でパフォーマンスの高い実行モデルを提供すること。
フォールバックインタプリタの代わりに、最適化されたコンテキスト固有の継続を用いて、失敗した予測的最適化からの回復を可能にすること。
OSRポイントでの実際の実行コンテキストに特化したコードを生成することで、ピークパフォーマンスを向上させること。

提案手法

従来のデオプティマイゼーションの代わりに、特定化された継続へのディスパッチによるオンスタックリプレース（OSR）を導入し、ベースラインコードへの戻りを回避する。
各OSRポイントで、異なる実行時仮定に基づいて最適化された複数の継続を維持する。
OSRの終了ポイントでコンテキストディスパッチを用い、現在の実行状態に基づいて最も適切な継続を選択する。
元の関数とその最適化済みコードを再利用可能に保ち、段階的な一般化を回避する。
型推論とフィードバックを用いて、古くなったプロファイルデータを上書きし、継続の選択をガイドする。
継続の数に上限を設け、上限に達した場合は従来のデオプティマイゼーションにフォールバックする。

実験結果

リサーチクエスチョン

RQ1deoptlessは、JITコンパイラにおけるデオプティマイゼーションによるパフォーマンス劣化を解消できるか？
RQ2失敗した予測的最適化後の回復速度において、deoptlessは従来のデオプティマイゼーションと比べてどのように異なるか？
RQ3コンテキスト特化された継続を生成することで、deoptlessはピークパフォーマンスを向上させられるか？
RQ4動的型の変更を伴う実世界ワークロードにおけるdeoptlessの影響は何か？
RQ5プロファイルデータが古くなったり誤りを含んだりした場合、deoptlessはどのように対処するか？

主な発見

ランダムに失敗する仮定を含む合成ベンチマークでは、deoptlessが最大9.1倍の高速化を達成し、すべてのベンチマークがベースラインより少なくとも1.9倍速くなった。
カラム単位の合計ベンチマークでは、deoptlessがデオプティマイゼーションからの回復が速いため、ベースライン比で35倍のパフォーマンス向上を達成した。
レイトレーサーベンチマークでは、型の変更によって引き起こされる遅延の緩和が一貫して見られ、deoptlessの実世界での有効性が裏付けられた。
RSAベンチマークでは、deoptlessがプロファイル駆動の再最適化を上回り、最高ケースでの1.4倍の高速化を達成した。
古くなった型フィードバックの処理においてもdeoptlessは頑健であり、コンテキストに応じた継続ディスパッチにより高いパフォーマンスを維持した。
どのベンチマークでもdeoptlessで遅くなった例はなく、多様なワークロードにおいて一貫したパフォーマンス向上が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。