Tesla P100 PCIE版の増設(Windows10)

Tesla P100 16GBのPCIE用のボードを運よくもいじる機会を得たのですが、増設で大変苦労しました。こんなマニアックな機材を使う人は多くないためか、なかなか上手く動かないにも関わらずネット上にも情報がなく苦労しました。同じトラブルで困っている人のためにヒントでも残せれば、と思って書き残しておきます。詳しく調べる技量はないので、原因の推測とその対処のみとなります。本来は正しく動作確認された本体とのセットで購入すべきであり、こういった少し強引な増設(特にファンや電源関連)は推奨されてはいないと思います。私はそれでも構わないので増設したく、そのための情報を探してなかなか見つからずに困ったので、同じような方のために書き残しておきます。この記事に限りませんが、参考にした結果生じた損害などに関して責任は負えませんことをご承知ください。

結局はリソース不足とのエラーがWindows上で出た場合、BIOS/UEFIのアップデートが必要で、それを行っても直らない場合は使えないようです。恐らくはVRAMが大容量になったけど昔のシステムではそこまでの容量は考慮されておらず、メモリ領域のmappingが被ってしまったことでしょうか。以下でTeslaの増設を前提としたエアフローを考慮されている専用機ではなく、通常のワークステーションに増設を行った手順を記載いたします。

仕事ではWindow10をよく使っておりますが、必要に応じてmacOSやLinuxも多少はいじれます。LinuxはDebianでかれこれ10年近く細々とサーバーを個人用に運用してきた経験はありますが、システム管理は最低限しかやっておらず、トラブルがあると苦労しているくらいです。なので、できればWindows上で使えればいいなぁと思って増設を開始しました。

まず最初のファンなしのパッシブの冷却機構なところが最初の難関でした。ただ、ボードをよく観察すると、後ろの方にネジ穴があります。ネジ穴の直径は3mm、2つのネジ穴の間隔が4cm程。ということは、4cmのファンを増設できるのではないかと思いました。使った商品は以下のもので、ネジは秋葉原にあるネジの西川まで買いに行きました。直径が3mm、長さはファンの幅 + 5mm、つまり以下の商品の場合1cmだったので、15mmのものを購入しました。

ところが、増設しようにもぎりぎり入らないんですよ…。ネジ穴の幅自体が4cmであるため、4cmのファンだと本来のネジの間隔は4cm弱。ここで登場「鉄やすり」。こいつでぎりぎりまで穴を外側に広げ、なんとか装着完了。写真として以下のような具合になりました。エアフローとして、内部から外に出す方向、つまりケース内部である上からケース外である下に流れる方向で取り付けております。

内部の4ピンのペリフェラルコネクタから分岐させ、3ピンのファンの電源を確保しました(分岐ケーブルは上の購入した山洋電気製4cmファンに付属)。

使う用途がGPUの科学技術計算だったため(もちろんそのためのTeslaなので…w)、CPUにはあまり興味なし。じゃ、古い眠っているようなPCを起こして増設してしまえば一石二鳥(石はCPU?GPU?)Bloomfield世代のマザーボードに差してみたところ、Windows10のデバイスマネージャからはリソース不足というエラーで動いていないようです。他のデバイスを無効にする必要があります(試行錯誤中なので正確なメッセージを書き留めておらず)、のようなエラーメッセージも出ました。この時点でBIOS/UEFIを疑えばよかったのですが、その時点では思い付かずに延々とドライバ再インストール地獄巡りの後(愚痴書いても仕方ないので省略しますが結構時間無駄にしました)、Broadwell世代のマザーボードの空きPCIEに差したりもしたのですが、やはり動かず。もしかしてOSを変えればすんなりと動くかも、と思って、多少は慣れたDebianも検討しましたが、NVIDIAさんのわざわざドライバを作ってくださっているUbuntu 16.04 LTSを入れてみました(このインストールのも何故か苦労したのですが、その話はまた機会があれば…w)。

すると、起動時のログを確認すると、ディスプレイ出力用のQuadroは適切なドライバを入れると正しく認識されるんですけど、Tesla P100だけはどうしても以下のようなエラーが出てくるわけです。

address conflict with ACPI CPU throttle
NVRM: The system BIOS may have misconfigured your GPU

ここまできて、ようやくこれはBIOS/UEFIのアップデートが必要だ、と気が付いたわけです。古いマザーボードのBIOSを最新にまで上げても「リソース不足」のエラーは解消されず。一番新しいBroadwell世代のものは、UEFIのアップデートで無事に認識されるようになりました。

ところが今度、Broadwell世代のものは電源問題が発生です。認識させるくらいならなんちゃってで繋いでも一応動いたのですが、本運用ではやはり正しく接続すべきでしょう(本当は認識の時点からすべきですが…orz)。古い方は電源を交換しており、そこそこいいものに交換していたので、PCI Express VGA用コネクタ (8ピン) が2つ余裕で確保できておりました。このTesla P100なんですが、簡易マニュアルを見ますと、電源はCPU 8ピンケーブルとあります。ところがこの新しい増設した機材にはPCI Express VGA用コネクタ (6ピン)が3つしかありません。 この6ピンのコネクタが120Wを供給できるとの記載は見付からない。ということは、6ピン2つで8ピンを作り、さらに8ピン2つを束ねてCPU 8ピンケーブルを作るのが正攻法(6ピンが4つ必要)。使う製品はこのようなものになります。

6ピンのケーブルが4つ必要にも関わらず実際には電源から出ているのは3つしかないので、最後の一つを他のものから持ってくるのですが、SATAの電源ケーブルから作る術と、4ピンのペリフェラルコネクタ2つから作る術がありそれぞれ以下のような製品を使うようですが、筐体内部事情から後者を選択し、なんとか無事に繋げました。

さて、電源がなんとなかったら、今度気になってくるのが空冷問題です。内部に増設した4cmのファンだけで大丈夫か?というわけで、外から92mmのケースファンを増設して強制的に排気を試みます。デスクのすぐ横に置いて利用するので煩すぎても駄目だけど、静か過ぎては冷えない。そんなバランスを取るのが、私の場合は以下の商品でした。

で、強力に冷やしたいときは以下の製品を、と思ったのですが、普段使うには少々煩いです。

で、これらのファンを、PCIEの排気口にセロハンテープで留めてもいいのですが、剥れ落ちたりしそうなので、四隅に付属のネジを入れ、さらにケース側に強力磁石を付け、ネジを磁石によってケースの背面に固定しました。これで交換も容易です。

電源は内部からこれ以上取るのが憚られたので、外部のACアダプタを使いました。

最終的に繋いで本運用として動かしておりますが、nbodyで負荷をかけまくってもそこそこ動いているようなので大丈夫っぽいです。もうちょっと負荷のかかるものを1週間くらい動かしまくる実験も後ほどしてみたいと思います。

電源容量の件も詳細は省略しますが、Teslaだけに250Wくらいの容量は確保できるようにしておく必要があります。今回の場合、電源は1000Wを超える容量のものを利用しております。さらに、電源の総容量だけでなく、12Vでどれだけの容量を確保できるか、という観点でもチェックする必要が厳密にはありますが、私はこの辺りを細かく計算する手間を省くために、電源に関してはかなり余裕をもたせたものを選択しております。

またTeslaのボード冷却は重要で、上にもリンクを貼ったTesla P100の簡易マニュアルをみますと、GPUの温度が80度ではフルに動きますが、82度になるとクロックが50%に低下し、85度ではシャットダウン(おそらく動作中断)することが書かれております。なので、十分に冷却性能を確保しなければ性能を発揮できないことになります。

続報あり

コメント

タイトルとURLをコピーしました