最近、深層学習一色になってあまりfp64の性能にfocusがあたっていないだけでなく、情報を探すのにも苦労するので、(自分自身の購入検討用に)少しまとめてみました。CC(Compute Capability)は主にNVIDIAのウェブサイト、SMあたりのfp64性能はCUDA C Programming Guideのmaximize instruction throughputにある64-bit floating-point add, multiply, multiply-addから引用しております。TeslaのスペックはELSAさんのウェブサイトを参考にしたものが多いです。残りのものはウェブ検索などからあちこちのサイトから引用しており、個々の引用を示すことは省略させてください。長期間の稼動を想定して、クロックはベースクロック、総fp64性能は、「SM数 x fp64 x クロック」で計算しております。計算方法が正しいかどうかは知りませんので悪からず(例えばTesla K20などは一般に言われている数値1.17TFLOPSとかなり乖離があります)。TDPには追加電源の種類(「6+8」なら6ピンと8ピン)も追記しております。Tesla P100/V100のCPU8ピンの電源ケーブルは、PCIe 8pin2本から変換するのが一般的のようです(変換ケーブルが付属します)。複数のeditionがある場合などは、入手可能性が高そうなもの(例えばFounder Editionでないもの)、またメモリ容量によって性能が変わる場合、最大のメモリ容量のものを示しております。また最後に、こちらのサイトは非常に参考になると思います。
製品名 | CC等 | SM数 | fp64 | クロック | 総fp64 | メモリ | メモリ帯域 | TDP |
---|---|---|---|---|---|---|---|---|
Tesla V100 | Volta(7.0) | 80 | 32 | 1230MHz | 3.14T/s | 32GB | 900GB/s | 250W(CPU8) |
Tesla P100 | Pascal(6.0) | 56 | 32 | 1189MHz | 2.13T/s | 16GB | 720GB/s | 250W(CPU8) |
TITAN V | Volta(7.0) | 80 | 32 | 1200MHz | 3.07T/s | 12GB | 653GB/s | 250W(6+8) |
Tesla K20 | Kepler(3.5) | 13 | 64 | 706MHz | 0.14T/s | 5GB | 208GB/s | 225W(6+8) |
RTX 2080Ti | Turing(7.5) | 68 | 2 | 1350MHz | 0.18T/s | 11GB | 616GB/s | 250W(8+8) |
GTX 1080Ti | Pascal(6.1) | 28 | 4 | 1480MHz | 0.17T/s | 11GB | 484GB/s | 250W(6+8) |
コメント