【產業戰報】記憶體快訊

產業隊長 張捷

產業隊長 張捷

  • 2026-02-05 00:09
  • 更新:2026-02-05 00:09
【產業戰報】記憶體快訊

【產業戰報】記憶體快訊

本文章內容僅為法說會訊息分享以及教學案例之用,內文提到的股票與產業皆非個股推薦,僅為訊息分享傳遞與個人交易心法與心得,進場前請謹慎風險評估、損益自負

前言:Rubin ICMSP關鍵不只算力,還要記憶體!

  • 輝達近日宣布將在 Vera Rubin 平台上採用 ICMS(推論情境記憶體儲存),目標是解決大規模推論運算中的記憶體瓶頸。新架構預期將採用 16TB TLC SSD,並將 KV 快取卸載至更具延展性的儲存體系,以強化 Rubin 的 AI 能力。

  • KV 快取是「AI 模型的短期記憶」。由於已經儲存先前已計算過的 key-value 配對,以避免重複運算。依據記憶體階層不同,KV 快取可配置在不同的運算記憶體層級中。例如,KV 快取可配置於 GPU HBM(G1),做為主動 KV 快取;配置於系統 DRAM(G2)做為暫存/外溢的 KV 快取;或者,做為置於本地 SSD(G3)中的暖 KV 快取;最後一種是容量最大、可跨節點共享的 KV 快取儲存層(G4)。

  • ICMSP 利用 DPU 所連接的 NVMe SSD 儲存來自 HBM 及 GPU 伺服器 DRAM的溢出鍵值快取資料。而 ICMSP SSD 擁有比一般 SSD 更高的頻寬與更低延遲,因為它所連接的 BlueField-4 DPU 是儲存加速器,可透過 Spectrum-6 乙太網路連接到 Vera Rubin Pod 中的 GPU,採用光子學技術,每個埠以 800 Gbps 運行。這個G3.5 層 Context Memory 為代理式 AI 的龐大快取資料而存在,主要存儲溫資料(warm data)並可隨時傳送到模型運算所需的熱資料裝置(DDR 或 HBM)。

  • 傳統架構中,數據從 G1/G2 溢出後會直接落入 G4(慢速存儲),導致讀取時 GPU嚴重停頓。G3.5 層的引入,利用 BlueField-4 的算力與 NVMe 的速度,創造了一個「偽無限」的外部顯存池。對於 GPU 而言,訪問 G3.5 的數據雖然比 HBM 慢,但遠快於重計算,且透過預取技術(Prefetching)可以掩蓋部分延遲。

【產業戰報】記憶體快訊
  • 資料來源:Nvidia、富邦投顧

  • 花旗銀行近期出具最新報告便指出,因為 Vera Rubin 平台預期將為 ICMS 運作採用 16TB TLC SSD,成為全球 NAND 需求成長動能。其中,每一套 Vera Rubin 伺服器系統需額外配置 1,152TB 的 SSD 才能運作 ICMS,全球 NAND 供應短缺將進一步惡化。

趕快登入看看,說不定你已經可以看到完整的文章囉!

  • 觀看投資洞見文章請先登入理財寶會員呦!
產業隊長 張捷

產業隊長 張捷

正統法人集團出身:歷任證券公司研究員、研究部主管,股市實戰資歷超過20年,拜訪過的公司高達1,000家!現為私募基金操盤人、CMoney理財寶 / Smart智富月刊 / 今週刊 / 先探雜誌特約講師。 勤訪各大企業、抓住主流產業,善用資訊領先優勢挑出「成長型飆股」後重壓長抱!僅靠 6 年累積出 3,000 萬以上資產,選出飆股機率高達 93% 股市爆料同學會|追蹤【產業隊長-張捷】個人頁 ► https://cmy.tw/00AiUv

正統法人集團出身:歷任證券公司研究員、研究部主管,股市實戰資歷超過20年,拜訪過的公司高達1,000家!現為私募基金操盤人、CMoney理財寶 / Smart智富月刊 / 今週刊 / 先探雜誌特約講師。 勤訪各大企業、抓住主流產業,善用資訊領先優勢挑出「成長型飆股」後重壓長抱!僅靠 6 年累積出 3,000 萬以上資產,選出飆股機率高達 93% 股市爆料同學會|追蹤【產業隊長-張捷】個人頁 ► https://cmy.tw/00AiUv