NVIDIA GPUのFP64性能

最近、深層学習一色になってあまりfp64の性能にfocusがあたっていないだけでなく、情報を探すのにも苦労するので、（自分自身の購入検討用に）少しまとめてみました。CC（Compute Capability）は主にNVIDIAのウェブサイト、SMあたりのfp64性能はCUDA C Programming Guideのmaximize instruction throughputにある64-bit floating-point add, multiply, multiply-addから引用しております。TeslaのスペックはELSAさんのウェブサイトを参考にしたものが多いです。残りのものはウェブ検索などからあちこちのサイトから引用しており、個々の引用を示すことは省略させてください。長期間の稼動を想定して、クロックはベースクロック、総fp64性能は、「SM数 x fp64 x クロック」で計算しております。計算方法が正しいかどうかは知りませんので悪からず（例えばTesla K20などは一般に言われている数値1.17TFLOPSとかなり乖離があります）。TDPには追加電源の種類（「6+8」なら6ピンと8ピン）も追記しております。Tesla P100/V100のCPU8ピンの電源ケーブルは、PCIe 8pin2本から変換するのが一般的のようです（変換ケーブルが付属します）。複数のeditionがある場合などは、入手可能性が高そうなもの（例えばFounder Editionでないもの）、またメモリ容量によって性能が変わる場合、最大のメモリ容量のものを示しております。また最後に、こちらのサイトは非常に参考になると思います。

製品名	CC等	SM数	fp64	クロック	総fp64	メモリ	メモリ帯域	TDP
Tesla V100	Volta(7.0)	80	32	1230MHz	3.14T/s	32GB	900GB/s	250W(CPU8)
Tesla P100	Pascal(6.0)	56	32	1189MHz	2.13T/s	16GB	720GB/s	250W(CPU8)
TITAN V	Volta(7.0)	80	32	1200MHz	3.07T/s	12GB	653GB/s	250W(6+8)
Tesla K20	Kepler(3.5)	13	64	706MHz	0.14T/s	5GB	208GB/s	225W(6+8)
RTX 2080Ti	Turing(7.5)	68	2	1350MHz	0.18T/s	11GB	616GB/s	250W(8+8)
GTX 1080Ti	Pascal(6.1)	28	4	1480MHz	0.17T/s	11GB	484GB/s	250W(6+8)