全球市值最高的科技巨擘 NVIDIA 再度投下震撼彈,正式推出其前沿 AI 模型的最新版本「Nemotron 3」。此次更新不僅僅是參數的堆疊,更在於 NVIDIA 押注了一種結合 Mamba 與 Transformer 的混合專家模型(MoE)架構。官方宣稱,這項技術突破將為企業級的「代理式 AI」(Agentic AI)帶來前所未有的準確度與可靠性,並一舉解決效能與成本的兩難局面。
Nemotron 3 系列依應用場景分為三種規格:針對高效率特定任務的 Nano(30B 參數)、具備高精準度推論能力且適用於多代理應用的 Super(100B 參數),以及專攻複雜運算的大型推論引擎 Ultra(約 500B 參數)。
NVIDIA 生成式 AI 軟體副總裁 Kari Briski 指出,當今開發者面臨著「極度開放、極度聰明、極度高效」的艱難三難困境(trifecta)。
為了突破此瓶頸,Nemotron 3 採用混合 Mamba-Transformer 架構,該架構源自 Carnegie Mellon University 與 Princeton 的研究,其巧妙地融合了「選擇性狀態空間模型」,使其在處理長達 100 萬 token 的超長上下文(context)時,仍能維持狀態並顯著降低運算成本。
NVIDIA 數據顯示,新架構的 token 處理量(throughput)較前代提升高達 4 倍,且因減少 60% 的推論 token 生成,大幅壓低了推論成本。Briski 解釋:「這種混合架構避免了為每個 token 建立龐大的注意力圖譜(attention maps)與Key-Value Caches(鍵值快取),因此能以更少的記憶體,跑出數倍的速度。」
針對高階的 Super 與 Ultra 模型,NVIDIA 更導入了「潛在 MoE」(Latent MoE)技術。Briski 生動地比喻:「這就像一群廚師共用一個大廚房(共享核心),但每個人都有專屬的香料架。」這種設計在提升效率的同時,保留了模型的專業分工能力。
除了模型本身,NVIDIA 也致力於建構完整的開發者生態系。作為發布的一部分,NVIDIA 推出強化學習實驗室「NeMo Gym」,讓開發者能在模擬環境中讓模型與代理「健身」(workout),測試其後訓練效能。這與 AWS Nova Forge 平台近期推出的工具概念相似,顯示科技巨頭們正將戰場延伸至模型訓練與驗證工具。
此外,NVIDIA 展現了高度的開放性,計畫釋出比市面上現有資料集「大上幾個數量級」的後訓練資料樣本、研究論文及範例提示詞。較大的模型更採用了 4-bit NVFP4 訓練格式,讓企業能在現有基礎設施上訓練而不犧牲準確度。
目前,包括 Accenture、Oracle、Palantir、Siemens 及 Zoom 等多家重量級企業已成為 Nemotron 3 的早期採用者。Artificial Analysis 的基準測試也顯示,Nemotron 在同級距模型中表現卓越。
核稿編輯:Sisley
加入 INSIDE 會員,獨享 INSIDE 科技趨勢電子報,點擊立刻成為會員!
延伸閱讀:


