コンテンツにスキップ

FLOPS

出典: フリー百科事典『ウィキペディア(Wikipedia)』
浮動小数点演算能力から転送)
換算表
接頭辞 FLOPS
ヨタ(Y) 1024
ゼタ(Z) 1021
エクサ(E) 1018
ペタ(P) 1015
テラ(T) 1012
ギガ(G) 109
メガ(M) 106

FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータ性能指標の一つ。

概要

[編集]

FLoating point number Operations Per Secondの名称が示す通り、1秒間に浮動小数点演算が何回できるかの指標値ひいては性能値の事を指す。

ハードウェアの仕様として用いられるのは理論値であるが、ベンチマークソフトなどの計測から導き出される計測値は、理論値からは原則的に下がる。その為、理論値だけでなく、「理論的に算出された値の何%で実際のプログラムが動作するか」ということが重要になる(実測値)。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。

パーソナルコンピュータ(以下PCと表記)向けのCPUGPUメーカーは、計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピュータ(以下スパコンと表記)では多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている。

2016年前後の時点において、普及している家庭用のPCのCPUはGFLOPS、スパコンの世界1位はPFLOPSの単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]2000年頃からの理論値ではPCとスパコンの比例値は、おおよそ1万倍の差で推移している。

2024年3月現在、世界最高速のスパコンはFrontierで1.102EFLOPS[2]。分散コンピューティングでは、Folding@homeが一時的に2.4EFLOPSを突破した[3]

代表的なハードウェアの浮動小数点数演算能力

[編集]

PC (Intel)

[編集]
名称 コア数 クロック FLOPS(倍精度) 理論値/実測値 理論値の計算式 参照
Pentium 1コア 300MHz 300 MFLOPS 理論値 1 FLOPS/Clock × 300MHz
Pentium II 1コア 450MHz 450 MFLOPS 理論値 1 FLOPS/Clock × 450MHz
Pentium III 1コア 1.4GHz 2.1 GFLOPS 理論値 1.5 FLOPS/Clock × 1.4GHz
Pentium M 1コア 2.26GHz 3.39 GFLOPS 理論値 1.5 FLOPS/Clock × 2.26GHz [4]
Pentium 4 1コア 3.8GHz 7.6 GFLOPS 理論値 2 FLOPS/Clock × 3.8GHz [4]
Pentium D 2コア 3.6GHz 14.4 GFLOPS 理論値 2 FLOPS/Clock × 3.6GHz × 2コア [4]
Intel Atom
(Bonnell)
2コア 1.8GHz 5.4 GFLOPS 理論値 1.5 FLOPS/Clock × 1.8GHz × 2コア
Core Solo 1コア 1.83GHz 2.75 GFLOPS 理論値 1.5 FLOPS/Clock × 1.83GHz [5]
Core Duo 2コア 2.33GHz 6.99 GFLOPS 理論値 1.5 FLOPS/Clock × 2.33GHz × 2コア [5]
Core 2 Duo 2コア 3.33GHz 26.64 GFLOPS 理論値 4 FLOPS/Clock × 3.33GHz × 2コア [5]
Core 2 Extreme 4コア 3.2GHz 51.2 GFLOPS 理論値 4 FLOPS/Clock × 3.2GHz × 4コア [5]
Core i7
(Nehalem)
4コア 3.33GHz 53.28 GFLOPS 理論値 4 FLOPS/Clock × 3.33GHz × 4コア [5]
Core i7
(Westmere)
6コア 3.46GHz 83.04 GFLOPS 理論値 4 FLOPS/Clock × 3.46GHz × 6コア [5]
Core i7
(Sandy Bridge)
6コア 3.3GHz 158.4 GFLOPS 理論値 8 FLOPS/Clock × 3.3GHz × 6コア [5][6]
Core i7
(Haswell)
8コア 3.0 GHz (ベース)
3.5 GHz (ターボ)
384 GFLOPS (ベース)
448 GFLOPS (ターボ)
理論値 16 FLOPS/Clock × 3.0 GHz × 8コア
Core i7
(Broadwell)
10コア 3.0 GHz (ベース)
3.5 GHz (ターボ)
480 GFLOPS (ベース)
560 GFLOPS (ターボ)
理論値 16 FLOPS/Clock × 3.0 GHz × 10コア
Core i9(Rocket Lake) 8コア 5.2 GHz (ターボ) 665 GFLOPS (ターボ) 理論値 16 FLOPS/Clock × 5.2 GHz × 8コア [7]
Core i9(Alder Lake) P8/E8 5.2/4.0 GHz (ターボ) 1.18 TFLOPS (ターボ) 理論値 16 FLOPS/Clock × 5.2 GHz × 8コア

+ 16 FLOPS/Clock × 4.0 GHz × 8コア

[8]

Core 2 Duoより1クロックで SSE で加算と乗算が計算できる[9]ようになり128ビット幅だと倍精度で 4 FLOPS/クロック。Sandy Bridgeより搭載した Intel AVXは256ビット幅なので8FLOPS/クロック。Intel FMA融合積和命令により1命令で積と和の2演算ができるので16FLOPS/クロック[10]。単精度だと、これらの演算回数は2倍[11]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[12]ため、合計すると倍精度で3FLOPS/クロックとなる。

サーバ (Intel)

[編集]
名称 コア数 クロック FLOPS(倍精度) 理論値/実測値 理論値の計算式 参照
Xeon
(Nehalem)
8コア 2.26 GHz 72.32 GFLOPS 理論値 4 FLOPS/Clock × 2.26 GHz × 8コア
Xeon
(Westmere)
10コア 2.4 GHz 96 GFLOPS 理論値 4 FLOPS/Clock × 2.4 GHz × 10コア
Xeon
(Sandy Bridge)
8コア 3.1 GHz 198.4 GFLOPS 理論値 8 FLOPS/Clock × 3.1 GHz × 8コア
Xeon
(Ivy Bridge)
15コア 2.8 GHz 336 GFLOPS 理論値 8 FLOPS/Clock × 2.8 GHz × 15コア
Xeon
(Haswell)
18コア 2.3 GHz 662.4 GFLOPS 理論値 16 FLOPS/Clock × 2.3 GHz × 18コア
Xeon
(Broadwell)
24コア 2.2 GHz(ベース)
3.4 GHz(ターボ)
0.845 TFLOPS(ベース)
1.306 TFLOPS(ターボ)
理論値 16 FLOPS/Clock × 3.4 GHz × 24コア
Xeon Phi
(Knights Corner)
61コア 1.238 GHz(ベース)
1.33 GHz(ターボ)
1.208 TFLOPS(ベース)
1.298 TFLOPS(ターボ)
理論値 16 FLOPS/Clock × 1.33 GHz × 61コア
Xeon Phi
(Knights Landing)
72コア 1.5 GHz(ベース)
1.7 GHz(ターボ)
3.456 TFLOPS(ベース)
3.917 TFLOPS(ターボ)
理論値 32 FLOPS/Clock × 1.7 GHz × 72コア

PC/Server (AMD)

[編集]
名称 コア数 クロック FLOPS(倍精度) 理論値/実測値 理論値の計算式 参照
Phenom II
(X4 980 Black Edition)
4コア 3.7GHz 59.2 GFLOPS 理論値 4 FLOPS/Clock × 3.7GHz × 4コア
Phenom II
(X6 1100T Black Edition)
6コア 3.3GHz 79.2 GFLOPS 理論値 4 FLOPS/Clock × 3.3GHz × 6コア
AMD Fusion E Series
(Bobcat)
2コア 1.65GHz 6.6 GFLOPS 理論値 2 FLOPS/Clock × 1.65GHz × 2コア
AMD Opteron
(Magny-Cours)
12コア 2.5GHz 120 GFLOPS 理論値 4 FLOPS/Clock × 2.5GHz × 12コア [6]
AMD FX
(Bulldozer)
8コア/4モジュール 3.9GHz 124.8 GFLOPS 理論値 8 FLOPS/Clock × 3.9GHz × 4モジュール
AMD Opteron
(Interlagos)
16コア/8モジュール 3.1GHz 198.4 GFLOPS 理論値 8 FLOPS/Clock × 3.1GHz × 8モジュール
Ryzen 9
(Vermeer)
16コア 4.9GHz(ブースト) 1.254 TFLOPS 理論値 16 FLOPS/Clock × 4.9GHz × 16コア
EPYC
(Milan)
64コア 3.5GHz(ブースト) 2.509 TFLOPS(ベース)
3.584 TFLOPS(ブースト)
理論値 16 FLOPS/Clock × 3.5GHz × 64コア

Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。

名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
ARM11 1コア 700MHz 単精度:700 MFLOPS 理論値 単精度:1 FLOPS/Clock × 700MHz
ARM Cortex-A8 1コア 1GHz 単精度:4 GFLOPS 理論値 単精度:4 FLOPS/Clock × 1GHz
ARM Cortex-A9 4コア 1.5GHz 単精度:24 GFLOPS
倍精度:9 GFLOPS
理論値 単精度:4 FLOPS/Clock × 1.5GHz × 4コア
倍精度:1.5 FLOPS/Clock × 1.5GHz × 4コア
ARM Cortex-A15 4コア 2.0GHz 単精度:64 GFLOPS
倍精度:16 GFLOPS
理論値 単精度:8 FLOPS/Clock × 2.0GHz × 4コア
倍精度:2 FLOPS/Clock × 2.0GHz × 4コア
ARM Cortex-A57 4コア 2.8GHz 単精度:89.6 GFLOPS
倍精度:44.8 GFLOPS
理論値 単精度:8 FLOPS/Clock × 2.8GHz × 4コア
倍精度:4 FLOPS/Clock × 2.8GHz × 4コア
  • NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)

ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[13]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。

倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。

ゲーム機

[編集]

※いずれも単精度(FP32)

スーパーコンピュータ

[編集]
名称 FLOPS 理論値/実測値 システム概要 参照
ENIAC 300FLOPS 1946年完成
CRAY-1 160MFLOPS 倍精度, 理論ピーク性能値 1976年初号機納入
ディープ・ブルー 11.38GFLOPS 1989年開発開始、1997年チェス世界チャンピオンと対戦し、勝利
地球シミュレータ
(第1世代)
35.86TFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2002 1位
TSUBAME 1.2 87.01TFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2009 41位
T2Kオープンスパコン 101.74TFLOPS 倍精度, LINPACK実測値
地球シミュレータ
(第2世代)
122.4TFLOPS TOP500 Jun 2009 16位
GPUクラスタ
長崎大学濱田剛ら)
158TFLOPS [25]
Blue Gene/L 478.2TFLOPS TOP500 Nov 2007 1位
IBM Roadrunner 1.105PFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2008 1位
TSUBAME 2.0 1.192PFLOPS 倍精度, LINPACK実測値 TOP500 Nov 2011 4位

Xeon + NVIDIA Tesla

天河一号A 2.566PFLOPS 倍精度, LINPACK実測値 TOP500 Nov 2010 1位

理論値 4.701 PFLOPS。実行効率 54.6%
Xeon + NVIDIA Tesla

TSUBAME 2.5 2.843PFLOPS 倍精度, LINPACK実測値 TOP500 Nov 2013 11位 , Green500 6位

理論値 5.609 PFLOPS。実行効率 50.7%
Xeon + NVIDIA Tesla

10.510PFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2011 1位

実行効率 93.2%[26] - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128)

[27][28]
IBM Sequoia 17.172PFLOPS 倍精度, LINPACK実測値 TOP500 Nov 2012 1位

理論値 20.133 PFLOPS。実行効率 85.3%
PowerPC A2

天河二号 61.445PFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2013 1位

理論値 100.679 PFLOPS。実行効率 61.0%
Xeon E5-2692v2 + Xeon Phi 31S1P

神威太湖之光 93.01PFLOPS TOP500 Jun 2016 1位

理論値 125.436 PFLOPS。実行効率 74.1%
SW26010, Sunway

Summit 143.5PFLOPS TOP500 Jun 2018 1位

理論値 200.795 PFLOPS。実行効率 71.4%
Power9 22C, Mellanox dual-rail EDR InfiniBand

富岳 442.01PFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2020 1位

理論値 520PFLOPS。実行効率 82.3%

Frontier 1102.00PFLOPS
(1.102EFLOPS)
倍精度, LINPACK実測値 TOP500 Jun 2022 1位

理論値1685.65PLOPS。実行効率 65.4%
史上初めてLINPACKでEFLOPSを達成

名称 FLOPS 日付 参加台数 Active率 参照
BOINC 2.958PFLOPS 2009年12月6日 [29]
8.563PFLOPS 2013年12月26日 986,613台 8.51%
161.081PFLOPS 2015年2月3日 376,688台 3.54%
160.76PFLOPS 2017年3月14日 739,507台 4.79%
SETI@home
(BOINCに含む)
658.210TFLOPS 2013年12月26日
731.599TFLOPS 2009年12月6日
UD Agent 65TFLOPS 2001年10月01日 約96万台
Folding@home 4.273PFLOPS 2008年11月22日 Active 353,966 CPU
(参加約355万台)
5.427PFLOPS 2012年3月23日
2.4EFLOPS 2020年4月14日 [3]

単精度の積和算を 2 FLOPS/Clock で行える。

NVIDIA GeForce

[編集]
  • 8600 GTS: 92.8GFLOPS / 139GFLOPS(積和算 / 積和算、積算合計)
  • 8800 GT: 336GFLOPS / 504GFLOPS(積和算 / 積和算、積算合計)
  • 9600 GT: 208GFLOPS / 312GFLOPS(積和算 / 積和算、積算合計)
  • 9800 GTX+: 470GFLOPS / 705GFLOPS(積和算 / 積和算、積算合計)
  • GTX 280: 622GFLOPS / 933GFLOPS(積和算 / 積和算、積算合計)[30][31]
名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
GTX 480 480 1401 MHz 単精度:1.345 TFLOPS 理論値 単精度:2 FLOPS/Clock × 1401 MHz × 480コア
GTX 580 512 1544 MHz 単精度:1.581 TFLOPS 理論値 単精度:2 FLOPS/Clock × 1544 MHz × 512コア
GTX 590
(2GPU合計)
1024 1214 MHz 単精度:2.488 TFLOPS 理論値 単精度:2 FLOPS/Clock × 1214 MHz × 1024コア
GTX 680 1536 1006 MHz 単精度:3.090 TFLOPS
倍精度:129 GFLOPS
理論値 単精度:2 FLOPS/Clock × 1006 MHz × 1536コア
倍精度:1/12 FLOPS/Clock × 1006 MHz × 1536コア
GTX 690
(2GPU合計)
3072 915 MHz 単精度:5.621 TFLOPS
倍精度:234 GFLOPS
理論値 単精度:2 FLOPS/Clock × 915 MHz × 3072コア
倍精度:1/12 FLOPS/Clock × 915 MHz × 3072コア
GTX 780 Ti
Special Black Edition
2880 1000 MHz 単精度:5.76 TFLOPS
倍精度:240 GFLOPS
理論値 単精度:2 FLOPS/Clock × 1000 MHz × 2880コア
倍精度:1/12 FLOPS/Clock × 1000 MHz × 2880コア
GTX TITAN X 3072 1000 MHz 単精度:6.144 TFLOPS
倍精度:192 GFLOPS
理論値 単精度:2 FLOPS/Clock × 1000 MHz × 3072コア
倍精度:1/16 FLOPS/Clock × 1000MHz × 3072コア
[32]
GTX TITAN Z
(2GPU合計)
5760 705 MHz 単精度:8.12 TFLOPS
倍精度:2.71 TFLOPS
理論値 単精度:2 FLOPS/Clock × 705 MHz × 5760コア
倍精度:2/3 FLOPS/Clock × 705 MHz × 5760コア
[33]
GTX 980 2048 1126 MHz 単精度:4.612 TFLOPS
倍精度:144 GFLOPS
理論値 単精度:2 FLOPS/Clock × 1126 MHz × 2048コア
倍精度:1/16 FLOPS/Clock × 1126 MHz × 2048コア
[34]
GTX 1080 2560 1733 MHz 単精度:8.872 TFLOPS
倍精度:277 GFLOPS
理論値 単精度:2 FLOPS/Clock × 1733 MHz × 2560コア
倍精度:1/16 FLOPS/Clock × 1733 MHz × 2560コア
[35]
RTX 2080 2944 1710 MHz 単精度:10.07 TFLOPS
倍精度:314 GFLOPS
理論値 単精度:2 FLOPS/Clock × 1710 MHz × 2944コア
倍精度:1/16 FLOPS/Clock × 1710 MHz × 2944コア
[36]
RTX 3080 8704 1710 MHz 単精度:29.77 TFLOPS

倍精度:465 GFLOPS

理論値 単精度:2 FLOPS/Clock × 1710 MHz × 8704コア

倍精度:1/32 FLOPS/Clock × 1710 MHz × 8704コア

[37]
RTX 4080

16GB

9728 2504 MHz 単精度:48.74 TFLOPS

倍精度:761 GFLOPS

理論値 単精度:2 FLOPS/Clock × 2504 MHz × 9728コア

倍精度:1/32 FLOPS/Clock × 2505 MHz × 9728コア

[38]
RTX 4090 16384 2520 MHz 単精度:82.58 TFLOPS

倍精度:1.290 TFLOPS

理論値 単精度:2 FLOPS/Clock × 2520 MHz × 16384コア

倍精度:1/32 FLOPS/Clock × 2520 MHz × 16384コア

[38]

AMD Radeon

[編集]
名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
HD 3650 120 725MHz 単精度:174 GFLOPS 理論値 単精度:2 FLOPS/Clock × 725MHz × 120コア
HD 3870 320 825MHz 単精度:496 GFLOPS 理論値 単精度:2 FLOPS/Clock × 825MHz × 320コア
HD 4670 320 750MHz 単精度:480 GFLOPS 理論値 単精度:2 FLOPS/Clock × 750MHz × 320コア
HD 4870 800 750MHz 単精度:1.2 TFLOPS 理論値 単精度:2 FLOPS/Clock × 750MHz × 800コア
HD 5870 1600 850MHz 単精度:2.72 TFLOPS 理論値 単精度:2 FLOPS/Clock × 850MHz × 1600コア
HD 5970
(2GPU合計)
3200 725MHz 単精度:4.64 TFLOPS 理論値 単精度:2 FLOPS/Clock × 725MHz × 3200コア [39]
HD 6970 1536 880MHz 単精度:2.703 TFLOPS
倍精度:0.676 TFLOPS
理論値 単精度:2 FLOPS/Clock × 880MHz × 1536コア
倍精度:0.5 FLOPS/Clock × 880MHz × 1536コア
[40]
HD 6990
(2GPU合計)
3072 830 MHz 単精度:5.1 TFLOPS
倍精度:1.275 TFLOPS
理論値 単精度:2 FLOPS/Clock × 830 MHz × 3072コア
倍精度:0.5 FLOPS/Clock × 830MHz × 3072コア
HD 7970
GHz Edition
2048 1.05 GHz 単精度:4.301 TFLOPS
倍精度:1.075 TFLOPS
理論値 単精度:2 FLOPS/Clock × 1.05 GHz × 2048コア
倍精度:0.5 FLOPS/Clock × 1.05 GHz × 2048コア
[41][40]
HD 7990
(2GPU合計)
4096 1.0 GHz 単精度:8.192 TFLOPS
倍精度:2.048 TFLOPS
理論値 単精度:2 FLOPS/Clock × 1.0 GHz × 4096コア
倍精度:0.5 FLOPS/Clock × 1.0 GHz × 4096コア
[41]
R9 290X 2816 1.0 GHz 単精度:5.632 TFLOPS
倍精度:1.408 TFLOPS
理論値 単精度:2 FLOPS/Clock × 1.0 GHz × 2816コア
倍精度:0.5 FLOPS/Clock × 1.0 GHz × 2816コア
R9 295X2
(2GPU合計)
5632 1.018 GHz 単精度:11.467 TFLOPS
倍精度:2.867 TFLOPS
理論値 単精度:2 FLOPS/Clock × 1.018 GHz × 5632コア
倍精度:0.5 FLOPS/Clock × 1.018 GHz × 5632コア

ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[42] であったり、倍精度の計算が出来なかったりする。

Intel

[編集]
名称 EU クロック FLOPS 理論値/実測値 理論値の計算式 参照
Intel GMA X4500 10 800MHz 単精度:32 GFLOPS 理論値 単精度:4 FLOPS/Clock × 10EU × 800MHz [43]
Intel HD Graphics (Clarkdale) 12 900MHz 単精度:43.2 GFLOPS 理論値 単精度:4 FLOPS/Clock × 12EU × 900MHz [43]
Intel HD Graphics 3000 12 1.35GHz (Max) 単精度:129.6 GFLOPS 理論値 単精度:8 FLOPS/Clock × 12EU × 1.35GHz [43]
Intel HD Graphics 4000 16 1.35GHz (Max) 単精度:345.6 GFLOPS 理論値 単精度:16 FLOPS/Clock × 16EU × 1.35GHz [44]
Intel HD Graphics (Haswell) 10 1.2GHz (Max) 単精度:192 GFLOPS 理論値 単精度:16 FLOPS/Clock × 10EU × 1.2GHz [44]
Intel Iris Pro Graphics 5200 40 1.3GHz (Max) 単精度:832 GFLOPS
倍精度:208 GFLOPS
理論値 単精度:16 FLOPS/Clock × 40EU × 1.3GHz
倍精度:4 FLOPS/Clock × 40EU × 1.3GHz
[45]
Iris Pro Graphics 6200 48 1.15GHz (Max) 単精度:883 GFLOPS
倍精度:220.8 GFLOPS
理論値 単精度:16 FLOPS/Clock × 48EU × 1.15GHz
倍精度:4 FLOPS/Clock × 48EU × 1.15GHz
[46]
Intel HD Graphics 530
(Skylake)
24 1.15GHz (Max) 単精度:441.6 GFLOPS
倍精度:110.4 GFLOPS
理論値 単精度:16 FLOPS/Clock × 24EU × 1.15GHz
倍精度:4 FLOPS/Clock × 24EU × 1.15GHz
[47]

HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。

Qualcomm Snapdragon

[編集]
名称 ALU数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Adreno 200 8 245MHz 3.92 GFLOPS 理論値 2 FLOPS/ALU × 245MHz × 8ALU
Adreno 203
Adreno 205
16 245MHz 7.84 GFLOPS 理論値 2 FLOPS/ALU × 245MHz × 16ALU
Adreno 220 32 266MHz 17.0 GFLOPS 理論値 2 FLOPS/ALU × 266MHz × 32ALU
Adreno 225 32 400MHz 25.6 GFLOPS 理論値 2 FLOPS/ALU × 400MHz × 32ALU
Adreno 320
(Snapdragon S4 Pro)
64 400MHz 57 GFLOPS 理論値 2.25 FLOPS/ALU × 400MHz × 64ALU [48]
Adreno 320
(Snapdragon 600)
96 400MHz 86.4 GFLOPS 理論値 2.25 FLOPS/ALU × 400MHz × 96ALU [48]
Adreno 330
(Snapdragon 800)
128 450MHz 129.6 GFLOPS 理論値 2.25 FLOPS/ALU × 450MHz × 128ALU [48]
Adreno 430
(Snapdragon 810)
288 500MHz 324 GFLOPS 理論値 2.25 FLOPS/ALU × 500MHz × 288ALU
チップセット GPU コア / クラスタ GPU MHz FLOPS

(単精度)

デバイス GPU モデルと理論値の計算式 参照
Apple A4
1 Core
200MHz
1.6 GFLOPS
iPhone 4
PowerVR SGX535 @ 200 MHz (2vec4)

4 x 2 х 0.200 = 1.6 GFLOPS

[49]
250MHz
2 GFLOPS
iPad
PowerVR SGX535 @ 250 MHz (2vec4)

4 x 2 х 0.250 = 2 GFLOPS

Apple A5
2 Cores
200MHz
14.4 GFLOPS
iPhone 4S
PowerVR SGX543MP2 (dual-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 14.4 GFLOPS

[50]
250MHz
18 GFLOPS
iPad 2
PowerVR SGX543MP2 (dual-core) @ 200 MHz

2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 18 GFLOPS

[50]
Apple A5X
4 Cores
250MHz
36 GFLOPS
iPad 3
PowerVR SGX543MP4 (quad-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 16 х 0.250 х 9 = 36 GFLOPS

[50]
Apple A6
3 Cores
250MHz
27 GFLOPS
iPhone 5
PowerVR SGX543MP3 (tri-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 12 х 0.250 х 9 = 27 GFLOPS

[50]
Apple A6X
4 Cores
280MHz
80 GFLOPS
iPad 4
PowerVR SGX554MP4 (quad-core) @ 280 MHz

2vec4 + 1 scalar: 4х2+1=9 * 32 х 0.280 х 9 = 80 GFLOPS

[51]
Apple A7
4 Clusters
450MHz
115.2 GFLOPS
iPhone 5S
PowerVR G6430 (quad-clusters) @ 450 MHz

64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS

[52]
533MHz
136.4 GFLOPS
iPad Air
PowerVR G6430 (quad-clusters) @ 533 MHz

64 USC x 4 Clusters x 0.533 = 136.4 GFLOPS

[52]
Apple A8
4 Clusters
450MHz
115.2 GFLOPS
iPhone 6/6 Plus
PowerVR G6450 (quad-clusters) @ 450 MHz

64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS

[53]
Apple A8X
8 Clusters
450MHz
230.4 GFLOPS
iPad Air 2
PowerVR GXA6850 @ 450 MHz

64 USC x 8 Clusters x 0.450 = 230.4 GFLOPS

[54][55]
Apple A9 6 Clusters 650MHz 249.6GFLOPS iPhone 6s/6s Plus PowerVR Series 7XT GT7600
Apple A9X 12 Clusters 650MHz 499.2 GFLOPS iPad Pro
Apple A10 Fusion 6 Clusters 900 MHz 364.8 GFLOPS iPhone 7/7 Plus, iPad (第6世代), iPad (第7世代) PowerVR Series 7XT GT7600 Plus
Apple A10X Fusion 12 Clusters 1000 MHz 768 GFLOPS 12.9インチiPad Pro (第2世代),

10.5インチiPad Pro,

Apple TV 4K

Apple A11 3 Clusters 1066 MHz 409.3 GFLOPS iPhone 8/8 Plus, iPhone X
Apple A12 Bionic 4 Clusters 1125 MHz 576 GFLOPS iPhone XR,

iPhone XS/XS Max,

iPad Air (第3世代),

iPad mini (第5世代),

iPad (第8世代),

Apple TV 4K (第2世代)

Apple A12X Bionic 7 Clusters 1340 MHz 1200 GFLOPS iPad Pro
Apple A12Z Bionic 8 Clusters 1372 GFLOPS iPad Pro, Developer Transition Kit
Apple A13 Bionic 4 Clusters 1350 MHz 691 GFLOPS iPhone 11シリーズ, iPhone SE (第2世代), iPad (第9世代)
Apple A14 Bionic 4 Clusters 975 MHz 998 GFLOPS iPhone 12シリーズ,

iPad Air (第4世代), iPad (第10世代)

Apple A15 4 Clusters

5 Clusters

1.2 GHz 1.4 TFLOPS

1.5 TFLOPS

iPhone 13シリーズ, iPhone 14/14 Plus, iPhone SE (第3世代),iPad mini (第6世代), Apple TV 4K (第3世代)
Apple A16 5 Clusters 1.2 GHz 2.0 TFLOPS iPhone 14 Pro/14 Pro Max,
Apple M1 7 Clusters

8 Clusters

1.28 GHz 2.6 TFLOPS MacBook Air, Mac mini, iMac, iPad Pro
Apple M1 Pro 14 Clusters

16 Clusters

1.3 GHz 4.5 TFLOPS

5.3 TFLOPS

MacBook Pro
Apple M1 Max 24 Clusters

32 Clusters

7.8 TFLOPS

10.6 TFLOPS

MacBook Pro, Mac Studio
Apple M1

Ultra

48 Clusters

64 Clusters

15.6 TFLOPS

21.2 TFLOPS

Mac Studio
Apple M2 8 Clusters

10 Clusters

1.4 GHz 3.6 TFLOPS MacBook Air, Mac mini, iPad Pro
Apple M2 Pro 16 Clusters

19 Clusters

6.8 TFLOPS Mac mini, MacBook Pro
Apple M2 Max 30 Clusters

38 Clusters

13.6 TFLOPS MacBook Pro, Mac Studio
Apple M2 Ultra 60 Clusters

72 Clusters

27.2 TFLOPS Mac Studio, Mac Pro

Texas Instruments OMAP

[編集]
名称 コア数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
PowerVR SGX 540 4 384MHz 6.1 GFLOPS 理論値 4 FLOPS/コア × 384MHz × 4コア

NVIDIA Tegra

[編集]
名称 ALU数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Tegra 2 8 333MHz 5.6 GFLOPS 理論値 2 FLOPS/ALU × 333MHz × 8ALU
Tegra 3 12 500MHz 12.48 GFLOPS 理論値 2 FLOPS/ALU × 520MHz × 12ALU [56][57]
Tegra 4i 60 660MHz 79.2 GFLOPS 理論値 2 FLOPS/ALU × 660MHz × 60ALU [58]
Tegra 4 72 672MHz 96.768 GFLOPS 理論値 2 FLOPS/ALU × 672MHz × 72ALU [57]
Tegra K1 192 950MHz 365 GFLOPS 理論値 2 FLOPS/ALU × 950MHz × 192ALU
Tegra X1 256 1.0 GHz 512 GFLOPS 理論値 2 FLOPS/ALU × 1.0GHz × 256ALU [59]

Samsung Exynos

[編集]
名称 コア数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Exynos 3 1 200MHz 3.2 GFLOPS 理論値 16 FLOPS × 200MHz
Exynos 4 Dual (45nm) 4 266MHz 9.6 GFLOPS 理論値 9 FLOPS/コア × 266MHz × 4コア
Exynos 4 Dual (32nm) 4 400MHz 14.4 GFLOPS 理論値 9 FLOPS/コア × 400MHz × 4コア
Exynos 4 Quad 4 440MHz 15.84 GFLOPS 理論値 9 FLOPS/コア × 440MHz × 4コア
Exynos 5 Dual 4 533MHz 72.5 GFLOPS 理論値 Mali T604 MP4 (quad-core) @ 533MHz * 16FP + 1 TMU = 17 x 2 ALU x 4 Core x 0.533= 72.488 GFLOPS [60]
Exynos 5410 Octa 3 533MHz 51.2 GFLOPS 理論値 PowerVR SGX544MP3 (tri-core) @ 533MHz * 2vec4=8 * 12 х 0.533 х 8 = 51.2 GFLOPS
Exynos 5420 Octa 6 533MHz 102.4 GFLOPS 理論値 Mali T628 MP6 (six-core) @ 533MHz * 16FP x 2 ALU x 6 Core x 0.533 = 102.4 GFLOPS [61]

GPUアクセラレーター

[編集]
名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
NVIDIA Tesla C870 128 1.35 GHz 単精度:345.6 GFLOPS
倍精度:不可
理論値 単精度:2 FLOPS/Clock × 1.35 GHz × 128コア
NVIDIA Tesla C1060 240 1.3 GHz 単精度:622 GFLOPS
倍精度:78 GFLOPS
理論値 単精度:2 FLOPS/Clock × 1.3 GHz × 240コア
倍精度:1/4 FLOPS/Clock × 1.3 GHz × 240コア
NVIDIA Tesla C2070 448 1.15 GHz 単精度:1.03 TFLOPS
倍精度:0.515 TFLOPS
理論値 単精度:2 FLOPS/Clock × 1.15 GHz × 448コア
倍精度:1 FLOPS/Clock × 1.15 GHz × 448コア
NVIDIA Tesla K10
(2GPU合計)
3072 745 MHz 単精度:4.58 TFLOPS
倍精度:0.19 TFLOPS
理論値 単精度:2 FLOPS/Clock × 745 MHz × 3072コア
倍精度:1/12 FLOPS/Clock × 745 MHz × 3072コア
[62]
NVIDIA Tesla K20 2496 706 MHz 単精度:3.52 TFLOPS
倍精度:1.17 TFLOPS
理論値 単精度:2 FLOPS/Clock × 706 MHz × 2496コア
倍精度:2/3 FLOPS/Clock × 706 MHz × 2496コア
[62]
NVIDIA Tesla K40 2880 745 MHz 単精度:4.29 TFLOPS
倍精度:1.43 TFLOPS
理論値 単精度:2 FLOPS/Clock × 745 MHz × 2880コア
倍精度:2/3 FLOPS/Clock × 745 MHz × 2880コア
[62]
NVIDIA Tesla K80
(2GPU合計)
4992 562 MHz 単精度:5.61 TFLOPS
倍精度:1.87 TFLOPS
理論値 単精度:2 FLOPS/Clock × 562 MHz × 4992コア
倍精度:2/3 FLOPS/Clock × 562 MHz × 4992コア
NVIDIA Tesla P100 16GB 3584 1329MHz 単精度:9.526 TFLOPS
倍精度:4.763 TFLOPS
理論値 単精度:2 FLOPS/Clock × 1329 MHz × 3584コア
倍精度:1 FLOPS/Clock × 1329 MHz × 3584コア
AMD FirePro S9150 2816 単精度:5.07 TFLOPS
倍精度:2.53 TFLOPS
理論値 [63]
AMD FirePro S9170 2816 単精度:5.24 TFLOPS
倍精度:2.62 TFLOPS
理論値 [64]

FPGA

[編集]
アルテラ
名称 クロック FLOPS
(単精度、積和算)
理論値/実測値 理論値の計算式
Stratix IV 445 MHz 理論値 245 GFLOPS
実測値 171 GFLOPS
理論値 64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[65][66]。それに対して、GPUは1クロックで行える。
Stratix V 388 MHz 1.568 TFLOPS 理論値 2048 multiplier / 64 * 49 GFLOPS (388 MHz) = 1.568 TFLOPS[67]。単精度の乗算には 27x27 の multiplier が単精度浮動小数点数あたり 64 個必要。
Stratix 10 1 GHz 10 TFLOPS 理論値 2 FLOPS * 5000 DSP * 1 GHz = 10 TFLOPS[68]
ザイリンクス
名称 クロック FLOPS
(単精度)
理論値/実測値 理論値の計算式
Virtex-5 SX240T 162.52 GFLOPS 理論値 [69][70]
Virtex-6 SX475T 450 GFLOPS 理論値 [69]
Virtex-7 833 GFLOPS 理論値 [71]
Virtex UltraScale 1.739 TFLOPS 理論値 [71]

脚注

[編集]
  1. ^ 【レポート】ポスト「京」コンピュータはどうなるのか (1) 次世代スパコンの開発開始で米国に遅れをとっている日本 | エンタープライズ | マイコミジャーナル
  2. ^ Frontier”. www.olcf.ornl.gov. (2024/03/05)閲覧。
  3. ^ a b 中村 真司 (2020年4月14日). “Folding@homeがTOP 500の全スパコンを超える2.4EFLOPSに到達”. PC Watch. 2020年4月14日閲覧。
  4. ^ a b c Intel® microprocessor export compliance metrics
  5. ^ a b c d e f g Intel Corp.. “インテル® プロセッサー — インテル® マイクロプロセッサー製品の輸出規制基準”. 2015年1月12日閲覧。
  6. ^ a b PetaFLOPS for the Common Man- Pt 3 In the next few yrs what could PetaFLOPS Systems Look Like - The Dell TechCenter
  7. ^ "インテル® ターボ・ブースト・マックス・テクノロジー 3.0 の動作周波数5.20 GHz" Intel. インテル® Core™ i9-11900K プロセッサー. 2022-04-04閲覧.
  8. ^ "Performance-core Max Turbo Frequency 5.20 GHz Efficient-core Max Turbo Frequency 4.00 GHz" Intel. インテル® Core™ i9-12900KS プロセッサー. 2022-04-04閲覧.
  9. ^ Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel
  10. ^ "Intel® AVX 2.0 delivers 16 double precision and 32 single precision floating point operations per second per clock cycle within the 256-bit vectors, with up to two 256-bit fused-multiply add (FMA) units." Intel. Intel® Advanced Vector Extensions 512. 2022-04-04閲覧.
  11. ^ IDF Beijingで公開されたHaswellの省電力&オーバークロック機能 - PC Watch
  12. ^ Agner Fog, The microarchitecture of Intel, AMD and VIA CPUs
  13. ^ 5.5.2. NEON データ型および VFP データ型 - ARM
  14. ^ 組込み型マイコンとして業界最高性能の360MIPSを実現した SH-4「SH7750シリーズ」を製品化
  15. ^ a b PLAYSTATION 3のグラフィックスエンジンRSX”. PC Watch. 2021年11月12日閲覧。
  16. ^ マイクロソフト、「Xbox 360」ハードウェア編 丸山嘉浩氏「日本で成功しなければ成功したと言えない」 GAME watch 2005/05/13
  17. ^ a b c 株式会社インプレス (2017年8月28日). “【後藤弘茂のWeekly海外ニュース】 Xbox One X搭載チップ「Scorpio Engine」の詳細が明らかに”. PC Watch. 2023年1月11日閲覧。
  18. ^ a b 株式会社インプレス (2020年9月10日). “Xbox One Xを圧倒する高性能! Xbox Series S、詳細スペックが公開”. GAME Watch. 2021年6月5日閲覧。
  19. ^ 次世代プレイステーション向け世界最高速の128ビットCPU Emotion Engine を開発” (PDF). ソニー・コンピュータエンタテインメント (1999年3月2日). 2013年7月11日閲覧。
  20. ^ ベールを脱いだPlayStation 3の姿”. 4gamer.net. 2021年11月12日閲覧。
  21. ^ a b 西川善司,PS4にまつわる6つの疑問に答えるそぶりをしてみる~PS4はPS4.1,PS4.2と進化する!?”. 4gamer.net. 2021年11月12日閲覧。
  22. ^ PlayStation.com(Japan)
  23. ^ 西川善司の3DGE:知られざるPS4 Proの秘密(1)メモリ増量に,Polarisと次世代GPUの機能取り込み!?”. 4gamer.net. 2021年11月12日閲覧。
  24. ^ 「PS5」の詳細スペックやシステム設計情報が解禁。ロード時間は2GBをわずか0.27秒、PS4互換はすでに100作を確認、新オーディオエンジンで雨粒から音を再現”. 電ファミニコゲーマー – ゲームの面白い記事読んでみない?. 2020年3月18日閲覧。
  25. ^ GPU クラスタによる高性能計算技術の実証:長崎大学濱田剛テニュアトラック助教らのGPU クラスタによる計算がゴードン・ベル賞を受賞” (PDF). 2010年6月2日閲覧。
  26. ^ 【森山和道の「ヒトと機械の境界面」】 スパコン「京」を使う「次世代生命体統合シミュレーション」とは
  27. ^ 【レポート】「京」コンピュータが京速を達成 - Top500の首位堅持に期待 - エンタープライズ - マイコミジャーナル
  28. ^ 「京」が第37回TOP500ランキングにおいて世界第一位を獲得!
  29. ^ BOINC STATS - BOINC combined
  30. ^ ゲームを超えるミッションとは──NVIDIAが「GT200」にこめたGPUの可能性 (2/3) - ITmedia +D PC USER
  31. ^ GeForce GTX 200 GPU Technical Brief
  32. ^ 【レビュー】Maxwellのモンスター、「GeForce GTX TITAN X」をベンチマーク - PC Watch
  33. ^ 2999ドルの超弩級グラフィックボード『GeForce GTX TITAN Z』登場 - 週アスPLUS
  34. ^ 【後藤弘茂のWeekly海外ニュース】高い電力性能比を実現した「Geforce GTX 980」の秘密 - PC Watch
  35. ^ https://www.4gamer.net/games/251/G025177/20160516073/
  36. ^ Inc, Aetas. “西川善司の3DGE:GeForce RTX 20完全理解。レイトレ以外の部分も強化が入ったTuringアーキテクチャにとことん迫る”. www.4gamer.net. 2020年9月5日閲覧。
  37. ^ Inc, Aetas. “西川善司の3DGE:GeForce RTX 30シリーズのアーキテクチャを探る。CUDA Coreの増量とRT Coreの高性能化に注目だ”. 4Gamer.net. 2023年5月28日閲覧。
  38. ^ a b Inc, Aetas. “西川善司の3DGE:GeForce RTX 40完全解説。シェーダの大増量にレイトレーシングの大幅機能強化など見どころのすべてを明らかに”. 4Gamer.net. 2023年5月28日閲覧。
  39. ^ 米AMD、2基のGPUを搭載する「ATI Radeon HD 5970」 - 演算性能は4.64TFLOPS - マイコミジャーナル”. 2009年12月7日閲覧。
  40. ^ a b AMD Radeon HD 7970 GHz Edition Review: Battling For The Performance Crown
  41. ^ a b GPUアーキテクチャ刷新のサイクル変化が産んだ「Radeon HD 7990」
  42. ^ AMD’s Annual GPU Rebadge: Radeon HD 8000 Series for OEMs
  43. ^ a b c Intel HD Graphics DirectX Developer's Guide (Sandy Bridge) PDF
  44. ^ a b DirectX Developer’s Guide for Intel® Processor Graphics Maximizing Graphics Performance on 4th Generation Intel® Core™ Processors PDF
  45. ^ The Compute Architecture of Intel® Processor Graphics Gen7.5 PDF
  46. ^ The Compute Architecture of Intel® Processor Graphics Gen8 PDF
  47. ^ The Compute Architecture of Intel® Processor Graphics Gen9 PDF
  48. ^ a b c 359gsm.com - Qualcomm Snapdragon 800 & Adreno 330
  49. ^ AnandTech - The iPhone 5 Performance Preview
  50. ^ a b c d 359gsm.com - Apple GPU GFLOPS PowerVR Series5 SGXMP
  51. ^ 359gsm.com - Apple A6X & PowerVR SGX554
  52. ^ a b 359gsm.com - Apple A7 & PowerVR G6430
  53. ^ Apple A8 SoC - NotebookCheck.net Tech
  54. ^ AnandTech | Apple A8X’s GPU - GXA6850, Even Better Than I Thought
  55. ^ Apple A8X iPad SoC - NotebookCheck.net Tech
  56. ^ AnandTech - Analysis of the new Apple iPad
  57. ^ a b 【後藤弘茂のWeekly海外ニュース】NVIDIAがMWCに合わせて「Tegra 4/4i」の詳細を明らかに
  58. ^ 【レポート】NVIDIA、Tegra 4の詳細をついに公開 - CPUだけでなくGPUも大規模アーキテクチャ変更と明らかに (3) より高性能な製造プロセスを利用するTegra 4i - パソコン - マイナビニュース
  59. ^ AnandTech | NVIDIA Tegra X1 Preview & Architecture Analysis
  60. ^ Enjoy the Ultimate WQXGA Solution with Exynos 5 Dual
  61. ^ 359gsm.com - Samsung Exynos 5420 & ARM Mali T628 MP6
  62. ^ a b c Tesla Kepler Family Product Overview - Nvidia
  63. ^ AMD claims supercomputing GPU performance crown with FirePro S9150
  64. ^ AMD FirePro S9170 Server GPU
  65. ^ アルテラ浮動小数点メガファンクション
  66. ^ 浮動小数点メガファンクション ユーザーガイド
  67. ^ Achieving One TeraFLOPS with 28nm FPGA
  68. ^ ピーク浮動小数点性能の本質 - ALTERA
  69. ^ a b FPGAを用いた高性能コンピューティング
  70. ^ Revaluating FPGAs for 64-bit Floating-Point Calculations
  71. ^ a b DSP - Xilinx

関連項目

[編集]

外部リンク

[編集]