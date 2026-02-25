Vera Rubin讓AI晶片從單顆CPU進入機架級系統架構的時代，透過六顆不同功能的晶片高度分工、彼此協同運作，確保GPU幾乎不會被非計算任務給打斷，形成一個高穩定且高效率的運算管道。若與Blackwell相比，Vera Rubin的推理成本能降低約十倍之多。

文／魏聖峰

Nvidia執行長在今年ＣＥＳ展中首度揭露次世代ＡＩ運作系統，正式發表Vera Rubin，預計下半年上市，這款ＡＩ運作系統標誌ＡＩ運算正式進入rack-scale system engineering（機架級系統架構時代）。與過去單顆GPU演進不同，Rubin並非單一晶片升級，而是由六顆高度分工、彼此協同的關鍵晶片所組成，共同構成一個完整的ＡＩ工廠。Rubin架構的核心不僅來自於GPU算力提升，而在於計算、互連、網路以及全面提升基礎設施的效率。

這座系統架構透過Vera CPU、Rubin GPU、NVLink 6、ConnectX-9、BlueField-4與Spectrum-6的協同，Nvidia得以在同等或可控功耗，降低ＡＩ訓練與推理成本，建立難以複製的系統級護城河。如果和Blackwell相比，Vera Rubin的推理成本能降低約十倍，訓練與推理效率提升，在同等的功率下有更高的效能。很多消息來源指出，Rubin NVL72系統推論性能可以達到Blackwell的五倍。Rubin GPU本身具備50peraflops NVFP4 AI推理能力，這裡的50peraflops指的是單顆Rubin GPU每秒能進行五萬兆次運算的算力單位，NVFP4則是Nvidia開發的四位元浮點數格式。傳統ＡＩ運算常用十六位元，位元數愈低，運算愈快且節省記憶體。Vera Rubin雖然只用到四位元，但透過Nvidia的技術優化，它能保持接近十六位元或八位元的高精確度，同時讓推理速度翻倍，這就是Nvidia黑科技能力。

採用台積電三奈米製程

在功耗上，Nvidia並沒有公開具體功耗瓦數數據，但從推理／瓦效與系統整合推測，Rubin平台在能源效率上遠優於Blackwell架構。當然，這與台積電先進製程有關。Blackwell GPU採用台積電四奈米製程，而Vera Rubin的六款晶片全都採用台積電三奈米製程，並採用台積電的CoWoS-L封裝技術，並首度導入Chiplet（小晶片）設計與四倍光罩尺寸設計，將首度搭載HBM4記憶體，頻寬可達22TB/s。顯然台積電的先進製程與封裝技術，是Vera Rubin晶片能提升運作效率又能降低功耗很重要的原因。

台積電的先進製程一直供不應求，雖然今年的資本支出將達到五二○～五六○億美元，主要是用在二奈米建廠以及先進封裝廠上，但需求實在太大，台積電正擴大封測委外布局，日月光投控和京元電子要的受惠轉單對象，欣銓與力成也有可能受惠外溢訂單。台積電七奈米以下先進製程營收比重已達七四％，這類高端晶片的後段封測需求接挹注給日月光（封裝）與京元電（測試），帶動這兩家公司資本支出和業績的成長。

日月光投控已明確表示將積極追趕客戶需求，並大幅調升投資規模，以維持先進封裝龍頭的地位。該公司規劃今年整體資本支出將達到七○億美元創新高。其中機器設備會比去年的三四億美元，再增加十五億美元，成長幅度達三成。整體資本支出項目中約有三分之二會用在先進製程的支出上；日月光投控預計先進封裝服務（LEAP）營收將從去年的十六億美元，翻倍到三二億美元。測試大廠的京元電子也受惠於Nvidia AI晶片需求超乎預期，且ＡＩ晶片設計趨於複雜，導致測試時間拉長與需求增加，ＡＩ晶片需要更精細的系統級測試（SLT）與燒機測試（Burn-in），帶動產能持續滿載，京元電子今年的資本支出將接近四百億台幣，續創歷史新高。

加速大語言模型處理能力

Vera Rubin的六顆晶片中，Rubin GPU是ＡＩ訓練與推理的加速；專注於第三代Transformer Engin（變形金剛引擎），這是一項新的技術功能，主要用在加速大語言模型（LLM）與代理型AI（Agentic AI）的運算速度與效率。與前代Blackwell平台相比，推論吞吐量可提升高達五倍，訓練效能提升三．五倍。這款GPU能支援NVFP4等低精度推理格式，並能搭配HBM4高頻寬記憶體。Rubin GPU只負責計算本身，而不用再承擔網路、儲存或安全等非核心任務，為後續協同設計奠定基礎。（全文未完）

