NVIDIA GPUのFP64性能

最近、深層学習一色になってあまりfp64の性能にfocusがあたっていないだけでなく、情報を探すのにも苦労するので、(自分自身の購入検討用に)少しまとめてみました。CC(Compute Capability)は主にNVIDIAのウェブサイト、SMあたりのfp64性能はCUDA C Programming Guideのmaximize instruction throughputにある64-bit floating-point add, multiply, multiply-addから引用しております。TeslaのスペックはELSAさんのウェブサイトを参考にしたものが多いです。残りのものはウェブ検索などからあちこちのサイトから引用しており、個々の引用を示すことは省略させてください。長期間の稼動を想定して、クロックはベースクロック、総fp64性能は、「SM数 x fp64 x クロック」で計算しております。計算方法が正しいかどうかは知りませんので悪からず(例えばTesla K20などは一般に言われている数値1.17TFLOPSとかなり乖離があります)。TDPには追加電源の種類(「6+8」なら6ピンと8ピン)も追記しております。Tesla P100/V100のCPU8ピンの電源ケーブルは、PCIe 8pin2本から変換するのが一般的のようです(変換ケーブルが付属します)。複数のeditionがある場合などは、入手可能性が高そうなもの(例えばFounder Editionでないもの)、またメモリ容量によって性能が変わる場合、最大のメモリ容量のものを示しております。また最後に、こちらのサイトは非常に参考になると思います。

 

製品名 CC等 SM数 fp64 クロック 総fp64 メモリ メモリ帯域 TDP
Tesla V100 Volta(7.0) 80 32 1230MHz 3.14T/s 32GB 900GB/s 250W(CPU8)
Tesla P100 Pascal(6.0) 56 32 1189MHz 2.13T/s 16GB 720GB/s 250W(CPU8)
TITAN V Volta(7.0) 80 32 1200MHz 3.07T/s 12GB 653GB/s 250W(6+8)
Tesla K20 Kepler(3.5) 13 64 706MHz 0.14T/s 5GB 208GB/s 225W(6+8)
RTX 2080Ti Turing(7.5) 68 2 1350MHz 0.18T/s 11GB 616GB/s 250W(8+8)
GTX 1080Ti Pascal(6.1) 28 4 1480MHz 0.17T/s 11GB 484GB/s 250W(6+8)

コメント

タイトルとURLをコピーしました