Skip to main content
QUICK REVIEW

[論文レビュー] An Empirical Study of Intel Xeon Phi

Jianbin Fang, Ana Lucia Vărbănescu|arXiv (Cornell University)|Oct 22, 2013
Parallel Computing and Optimization Techniques参考文献 12被引用数 37
ひとこと要約

本論文は、Intel Xeon Phiのコア、メモリ階層、リングインタコネクト、PCIeインタフェースを評価する包括的なマイクロベンチマーキング研究を提示しており、パフォーマンスボトルネックを特定し、最適化ガイドラインを導出する。著者らは、理想状態下で理論上のピークパフォーマンスが達成可能であることを実証し、最小限のパフォーマンス損失で高レベルのアプリケーション開発を支援する簡素化された機能ベースのモデルを提案する。

ABSTRACT

With at least 50 cores, Intel Xeon Phi is a true many-core architecture. Featuring fairly powerful cores, two cache levels, and very fast interconnections, the Xeon Phi can get a theoretical peak of 1000 GFLOPs and over 240 GB/s. These numbers, as well as its flexibility - it can be used both as a coprocessor or as a stand-alone processor - are very tempting for parallel applications looking for new performance records. In this paper, we present an empirical study of Xeon Phi, stressing its performance limits and relevant performance factors, ultimately aiming to present a simplified view of the machine for regular programmers in search for performance. To do so, we have micro-benchmarked the main hardware components of the processor - the cores, the memory hierarchies, the ring interconnect, and the PCIe connection. We show that, in ideal microbenchmarking conditions, the performance that can be achieved is very close to the theoretical peak, as given in the official programmer's guide. We have also identified and quantified several causes for significant performance penalties. Our findings have been captured in four optimization guidelines, and used to build a simplified programmer's view of Xeon Phi, eventually enable the design and prototyping of applications on a functionality-based model of the architecture.

研究の動機と目的

  • Intel Xeon Phiのマルチコアアーキテクチャに影響を与える主要なパフォーマンス要因を理解すること。
  • 理論上のピークパフォーマンス(1000 GFLOPS、240 GB/s)が実際のワークロードで達成可能かどうかを特定すること。
  • コア、メモリ、インタコネクト部品におけるパフォーマンスペナルティを特定および定量すること。
  • 高レベルのアプリケーション設計および最適化を支援する、簡素化された機能ベースのモデルの開発

提案手法

  • コアパフォーマンス、メモリ遅延および帯域幅、リングインタコネクトスループット、PCIe転送レートを測定するためのターゲットを絞ったマイクロベンチマーキングの設計および実行。
  • アーキテクチャ部品の評価に、遅延指向(サイクル、秒)およびスループット指向(GFLOPS、GB/s)の両方のメトリクスの使用。
  • スレッド密度、メモリアクセスパターン、キャッシュ一貫性動作の分析により、パフォーマンスボトルネックを同定。
  • 実証的発見に基づき、4つの最適化ガイドラインを合成し、アプリケーションチューニングを支援。
  • 低レベルの実装詳細を省略しながら、パフォーマンスに重要な特徴を保持する、簡素化されたXeon Phiの抽象化モデルの構築。
  • 結果の公式ドキュメントとの整合性検証および、既存のCPUおよびGPUマイクロベンチマーキングアプローチとの比較

実験結果

リサーチクエスチョン

  • RQ1制御された条件下で、Xeon Phiのプロセッシングコア、メモリ階層、インタコネクトの実際のパフォーマンス限界は何か?
  • RQ2理論上のピークパフォーマンス(1000 GFLOPS、240 GB/s)は、実際のワークロードでどの程度達成可能か?
  • RQ3Xeon Phiアプリケーションにおけるパフォーマンス劣化の主な原因は何か?
  • RQ4非本質的なアーキテクチャ的詳細を抽象化しつつ、主要なパフォーマンス意味論を保持する、簡素化された機能ベースのXeon Phiモデルを構築可能か?

主な発見

  • 理論上のピークパフォーマンス1000 GFLOPSおよび240 GB/sは、理想状態のマイクロベンチマーキング条件下で達成可能であり、公式仕様の正確性が裏付けられた。
  • 最適でないスレッドスケジューリング、メモリアクセスパターン、キャッシュ一貫性のオーバーヘッド(特にリモートメモリアクセス時)により、顕著なパフォーマンスペナルティが生じる。
  • リングインタコネクトは対称的なコアパフォーマンスを可能にするが、メモリ帯域幅はデータローカリティおよびアクセスパターンの一貫性に極めて敏感である。
  • L2キャッシュはDTDを介して完全に一貫性を持つが、リモートL2アクセスはより高い遅延を引き起こし、不規則なメモリアクセスワークロードのパフォーマンスに影響を与える。
  • 最適なパフォーマンスを得るには、コアあたりのスレッド数とデータパーティショニングのバランスを慎重に調整し、メモリ帯域幅の利用を最大化する必要がある。
  • 提案された簡素化モデルは、不要なアーキテクチャ的詳細を抽象化しつつ、アプリケーション開発に必要な主要なパフォーマンス意味論を保持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。