輝達九月推出的VR200 CPX架構的擴充卡，正面迎戰ASIC競爭對手，將性價比大幅提升，還提供客製化機櫃組裝，加深其雲端伺服器護城河。

文／黃冠豪

九月中旬，輝達發表新一代VR200 NVL144 CPX機櫃，在印刷電路板（ＰＣＢ）設計、材料與散熱方案全面升級，推動ＡＩ伺服器供應鏈邁入新一波成長循環。Rubin系列中，目前已公開發布的有兩種產品：VR200、VR300（Ultra），外加一個ＣＰＸ擴充卡作為支援，新一代VR200沿用「十八個compute trays＋九個switch trays」的基本架構，運算托盤（compute trays）整合了伺服器核心元件，如CPU/GPU、記憶體、網路模組、散熱裝置等模組化單元，就像ＡＩ伺服器的「心臟底座」，負責全部的運算能力。

ＡＩ推理的過程中，有預填充（prefill）和解碼（decode）兩個階段，在Prefill階段特別吃計算能力，但對記憶體頻寬的需求很低，而到了Decode，模型要基於第一個token不斷生成後續內容，此階段對算力需求相對較低，反而得靠高記憶體頻寬快速調取之前的快取資料。過去的問題是，都用同一種ＧＰＵ（例如輝達的VR200）來跑這兩個階段，在預填充階段搭配昂貴的ＨＢＭ記憶體，根本用不上，而在解碼時，又出現算力相對過剩、記憶體頻寬不足，效率差也浪費錢，因此非輝達陣營進而發展出自己的ASIC規格，以節省成本。

Rubin CPX擴充卡

輝達於是推出Rubin CPX擴充卡，專門為預填充階段，量身定做的加速器，目標是：成本降低。單卡性能上和VR200相比，HBM換成了GDDR7，不僅視訊記憶體的容量、頻寬都顯著降低，性能下降不少，但ＣＰＸ的原物料成本約為VR200的四分之一，且可提供約VR200六○％的算力。此外，ＨＢＭ的價格非常貴，占ＧＰＵ中的成本比例越來越高，從A100的三五％漲到GB300的五一％，ＣＰＸ用的GDDR7，成本可以省下八○％。同樣跑一個預填充任務，VR200每小時需支出○．九美元的總擁有成本，而Rubin CPX只浪費○．一六美元。

可以說，輝達此布局明確對準其他ASIC廠而來。晶片有性價比還不夠，這次Rubin系列的機架設計都一同升級，解決了前兩代（GB200/GB300）的幾大痛點。第一，無電纜設計，GB200機架用的是電纜＋ＰＣＢ的連接方式，電線又多又亂，組裝時容易壞，還占空間，這次Rubin系列改用美商安飛諾（Amphenol）的板對板連接器，並配合中間的ＰＣＢ中板，所有訊號都走電路板，沒有一條電線。

第二，全液冷方案，前兩代機架是八五％液冷、十五％氣冷，這次改成百分百全液冷，把CPX與CX-9網路卡的ＰＣＢ疊板設計疊放在一起，中間夾一個共享的液冷板，兩邊的熱量都能快速導走。在ＣＰＸ的運算托盤內部，冷卻板（Cold Plate）數量由兩片增至五片，快接頭數量也從六顆提升至十二顆，初步估算，VR200 NVL144 CPX平台之液冷散熱零組件產值，較GB300 NVL72約有「倍增」的增幅。

欣興、定穎供應ＨＤＩ板

第三，客製化布建，若已採購先前的VR200 NVL144機架，不想全數更換怎麼辦？輝達這次給了Rubin CPX雙機架方案，單獨加一個裡面全是Rubin CPX的機架，通過InfiniBand（高效能互連）或乙太網路連接，客戶可以自行調整預填充和解碼的比例。綜上所述，輝達ＣＰＸ架構明確對準AMD、Google、AWS等競爭對手，AMD和Google都需要趕緊開發出新的預填充專用晶片，不然成本太高。（全文未完）

