GPUクラスター

GPUクラスター（英: GPU cluster）は、各ノードにグラフィックスプロセッシングユニット（GPU）を搭載したコンピュータ・クラスターである^[1]。GPUクラスターでは、汎用グラフィックスプロセッシングユニット（GPGPU）による最新のGPUの計算能力を利用することで、非常に高速な計算を行うことができる。

ハードウェア[編集]

GPU種類[編集]

GPUクラスターは、採用するGPUによってヘテロジニアスとホモジニアスの2つに分類することができる。

ヘテロジニアス

主要な独立系ハードウェア企業（英語版）（例：AMDとnVidia）の両方のハードウェアが使用される。同じGPUの異なるモデル（たとえば8800GTと8800GTXの混在）を使用した場合もヘテロジニアスクラスターとみなされる。

ホモジニアス

すべてのGPUが同じハードウェアクラス、メーカー、モデルであること（たとえば数100個の8800GTと同量のメモリで構成されるホモジニアスクラスター）。

GPUの種類によって利用できる機能が異なるため、上記の意味に基づいてGPUクラスターを分類することは、クラスター上でのソフトウェア開発を大きく方向付けることになる。

インターコネクト[編集]

コンピュータノードとそれぞれのGPUに加えて、ノード間でデータをやり取りするためには、十分な速度のインターコネクト（相互接続）が必要である。インターコネクトの種類は、存在するノードの数に大きく依存する。インターコネクトの例としてはギガビット・イーサネットやInfiniBandなどがある。

ソフトウェア[編集]

多数のGPU搭載マシンを1つのマシンとして動作させるために必要なソフトウェアコンポーネントには、次のものがある。

オペレーティング・システム
各クラスタノードに搭載された各GPUタイプに対応したGPUドライバ。
クラスタリングAPI（メッセージパッシングインターフェイス、MPIなど）。
AMAX（英語版）のVirtualCL（VCL）クラスタ・プラットフォームは、OpenCLのラッパーであり、ほとんどの変更されていないアプリケーションが、すべてのデバイスがローカル・コンピュータ上にあるかのように、クラスタ内の複数のOpenCLデバイスを透過的に利用できる。

アルゴリズムマッピング[編集]

GPUクラスターで動作するためのアルゴリズムのマッピングは、従来のコンピュータ・クラスターで動作するためのアルゴリズムのマッピングに多少似ている。例：配列の一部をRAMから分割するのではなく、テクスチャをGPUクラスターのノードに分割する。

ベンダー[編集]

NVIDIAは、Tesla 20シリーズGPGPUを使用して完全に構成されたGPUクラスターを構築して提供する能力を持つ、専用のTesla Preferred Partner (TPP)のリストを提供している^[2]。AMAX Information Technologies（英語版）社、Dell社、Hewlett-Packard社、Silicon Graphics社は、GPUクラスターとシステムの完全なラインナップを提供する数少ない企業である。

参照項目[編集]

高性能計算

脚注[編集]

^ Kindratenko, Volodymyr V.; Enos, Jeremy J.; Shi, Guochun; Showerman, Michael T.; Arnold, Galen W.; Stone, John E.; Phillips, James C.; Hwu, Wen-mei (2009). “GPU clusters for high-performance computing”. 2009 IEEE International Conference on Cluster Computing and Workshops (New Orleans, LA, USA: IEEE): 1–8. doi:10.1109/CLUSTR.2009.5289128. ISBN 978-1-4244-5011-4.
^ “GPU Computing Partners”. Nvidia. 2019年7月1日時点のオリジナルよりアーカイブ。2021年4月11日閲覧。

外部リンク[編集]

Are Magnus Bruaset, Aslak Tveito (2006). Numerical Solution of Partial Differential Equations on Parallel Computers. Birkhäuser. ISBN 3-540-29076-1 3-540-29076-1 外部リンク
NCSAのアクセラレータクラスター
STFCデアズベリー・ラボラトリーのGPUクラスター

[1] Kindratenko, Volodymyr V.; Enos, Jeremy J.; Shi, Guochun; Showerman, Michael T.; Arnold, Galen W.; Stone, John E.; Phillips, James C.; Hwu, Wen-mei (2009). “GPU clusters for high-performance computing”. 2009 IEEE International Conference on Cluster Computing and Workshops (New Orleans, LA, USA: IEEE): 1–8. doi:10.1109/CLUSTR.2009.5289128. ISBN 978-1-4244-5011-4.

[2] “GPU Computing Partners”. Nvidia. 2019年7月1日時点のオリジナルよりアーカイブ。2021年4月11日閲覧。

[1]

[2]

表話編歴並列計算
総論	クラウドコンピューティンググリッド・コンピューティング高性能計算コンピュータ・クラスター分散コンピューティング
並列レベル	タスクデータビット命令
スレッド	スーパースレッディング（英語版）ハイパースレッディング
理論	アムダールの法則グスタフソンの法則コスト効率性（英語版） Karp-Flatt metric（英語版） Parallel slowdown（英語版） Speedup（英語版）
要素	スレッドファイバープロセス PRAM Instruction window（英語版）
調整	キャッシュコヒーレンシ同期バリアマルチスレッディングマルチプロセッシングメモリコヒーレンス Cache invalidation（英語版） Application checkpointing（英語版）
プログラミング	スレッド (コンピュータ) 並列プログラミングモデル Implicit parallelism（英語版） Explicit parallelism（英語版）並行性フリンの分類 SISD SIMD MISD MIMD SPMD（英語版） Lock-freeとWait-freeアルゴリズム
ハードウェア	スーパーコンピュータスーパースカラーベクトル計算機マルチプロセッシング対称型非対称型マルチコアメモリ NUMA en:COMA en:分散型共有型分散共有型 SMT MPP Beowulf
API	Ateji PX（英語版） Boostスレッド C++ AMP Charm++（英語版） Cilk（英語版） Coarray Fortran（英語版） CUDA Dryad（英語版） Global Arrays（英語版） Intel Cilk Plus（英語版） Intel Threading Building Blocks MPI OpenACC OpenCL OpenHMPP（英語版） OpenMP PVM POSIXスレッド UPC
問題	en:Embarrassingly parallel en:Grand Challenge en:Software lockout
並行計算カテゴリ:並行計算カテゴリ:並列コンピューティング