作者:高飞,至顶科技创始人
我是提前两个小时到现场的,进场之后,发现自己不是第一批。早想到了,哼哼。
2026年3月16日,英伟达创始人黄仁勋在圣何塞SAP体育馆发表了长达2小时20分钟的GTC年度主题演讲。这是英伟达最重要的年度技术大会,今年吸引了190个国家逾3万名与会者,450家公司赞助。演讲涵盖了算力经济学、新一代硬件平台Vera Rubin、智能体软件生态、自动驾驶和机器人物理AI四条主线。
这场演讲有两个层面的意义。表面上,它是一场产品发布会。往深里看,黄仁勋在系统性地阐述:为什么AI算力需求不是一个泡沫,而是一个刚刚起步的结构性需求,以及英伟达为什么是这场转型的核心基础设施提供者。英伟达公布2026财年营收为2159亿美元,第四季度单季营收681亿美元;演讲当天股价上涨2.2%。
---
黄仁勋用一个物理约束作为起点:数据中心的功率是固定的,一个1吉瓦的工厂永远不会变成2吉瓦。在这个约束下,衡量AI计算机价值的维度只有两个:吞吐量(每单位功率能生产多少Token)和Token速度(每秒能生产多少Token)。前者决定工厂效率,后者决定AI的响应质量。
这两个维度天然是矛盾的。AI在深度推理时,速度慢但每个Token的价值高;批量处理时,速度快但单Token价值低。黄仁勋据此把Token服务分成了五个价格层:免费层、$3/百万Token的基础层、$6的进阶层、$45的高速层,以及$150/百万Token的顶级层(面向实时关键路径任务)。
"$150目前听起来是天文数字,但算一下:一个研究者每天用5000万Token,以一个团队来说,这不是大事。"
这是演讲里最大胆的一个数字,但有具体的推导路径。
推理AI(以o1为代表)使单次推理的Token消耗量增加了约1万倍,因为它需要大量中间推理步骤。同期AI的实际使用量增长约100倍。两者相乘,整体算力需求在两年内增长了约100万倍。黄仁勋的结论是:行业完全处于推理阶段,训练早已是过去式。
去年GTC,黄仁勋说对Blackwell和Vera Rubin截至2026年底的高置信度需求约5000亿美元。今年,他将时间窗口延展到2027年底,数字变成了至少1万亿美元。两次预测的时间窗口几乎相同,都是从发布当天向前看约21个月,并非靠拉长周期堆出来的,是同等窗口内需求本身增长了一倍。
驱动因素有三层叠加:推理AI使每次对话消耗的Token大幅增加;智能体AI使Token成为企业工程生产力的直接投入品;Vera Rubin相比Hopper的工厂理论收益约为25倍(Token经济学的价格层效应),推高了客户的意愿购买规模。
---
2025年10月起,英伟达已宣布Vera Rubin平台由六颗芯片组成。GTC 2026的重大更新是,随着Groq 3 LPU正式加入,平台芯片数量升至七颗,全部已量产。
七颗芯片分别是:Vera CPU(智能体任务编排)、Rubin GPU(大规模并行推理)、NVLink 6 Switch(机架内纵向扩展互联)、ConnectX-9 SuperNIC(机架间横向扩展网络接口)、BlueField-4 DPU(存储与安全卸载)、Spectrum-X CPO(共包封光学以太网交换机)、以及Groq 3 LPU(极低延迟Token生成)。
这七颗芯片构成了黄仁勋说的"极致协同设计":软件和硅片同步设计,而不是先做芯片再写驱动。整套Vera Rubin NVL72机架由130万个组件构成,100%液冷,45°C热水散热,所有线缆取消,安装时间从两天压缩到两小时。核心算力指标:3.6 ExaFLOPS(即3.6百亿亿次浮点运算),第六代NVLink提供260 TB/s全连接带宽。
GPU的设计哲学是大批量并行处理,在高吞吐量区间无可比拟,但面对"每秒400个Token以上"的极高速度需求时,互联带宽就到了物理瓶颈。
Groq LPU(语言处理单元)的架构截然不同:确定性数据流处理器,编译器提前算好所有计算时序,数据和计算同时到位,零动态调度,内置海量片上SRAM,专为推理这一个工作负载优化。英伟达与Groq签订了技术许可合作协议,这是Groq技术加入英伟达平台后的第一款产品。
单块Groq 3 LPU拥有500 MB片上SRAM,1.2 PetaFLOPS FP8算力,带宽约150 TB/s,约为Rubin GPU的7倍。但存储容量只有Rubin GPU板载高带宽存储的1/500,这是它无法单独承载大模型的原因。
英伟达的解法叫"分解式推理":用Dynamo调度框架把推理过程拆开,计算密集的预填充阶段(理解输入、建立上下文)由Rubin GPU承担,延迟敏感的逐Token生成阶段交给Groq LPU,两者通过专用低延迟以太网互联。结果:推理延迟降低约一半,在最高响应速度区间性能提升35倍。
Groq 3 LPX机架含256块Groq 3 LPU,与Vera Rubin NVL72并排部署。黄仁勋的部署建议:高吞吐量为主的工作负载用100% Vera Rubin;有大量高价值高速推理需求时,配置约25% Groq加75% Vera Rubin。Groq 3 LPU由三星制造,预计2026年Q3出货。
两年时间,同一个1吉瓦的工厂里,Token生成速度将从每秒0.2百万提升至700百万,提升350倍。英伟达给出了到2028年的完整路线图:
Vera Rubin Ultra(2027年)采用全新Kyber机架,计算节点竖向插入,单机架连接144块GPU,形成单一NVLink互联域。
Feynman(2028年)包含全新GPU、LP40新一代LPU(与Groq团队联合研发)、新CPU Rosa(全称Rosalind,致敬用X射线晶体学揭示DNA双螺旋结构的Rosalind Franklin)、BlueField-5加ConnectX-10,以及Kyber机架的铜缆与共包封光学双轨纵向扩展。
十年间,从2016年的DGX1(170 TFLOPS)到今天的Vera Rubin,算力提升了4000万倍。
---
今年是CUDA诞生20周年,也是GeForce诞生25周年。黄仁勋用这两个节点讲清楚了英伟达的护城河逻辑。
CUDA最难复制的,是装机基础:全球数以亿计的GPU都在运行CUDA,进入了每一朵云、每一家计算机公司。装机基础吸引开发者,开发者创造新算法,新算法催生新市场,新市场扩大装机基础,如此循环。
一个反直觉的信号:Ampere架构(2020年推出)的二手市场价格在过去几年一直在涨。旧芯片价格不跌反涨,因为能在上面跑的应用太多,实际使用寿命极高。
"这栋楼,是GeForce建的。"黄仁勋的意思是,25年来让消费者通过游戏成为英伟达用户,最终转化成了开发者群体的基础,也为CUDA的推广提供了最初的装机基础。
本次GTC,英伟达发布了约70个新库和40多个更新版本,CUDA X库的总量持续增长,黄仁勋称其为"公司的皇冠珠宝"。
---
黄仁勋在讲完OpenClaw之后,说出了一个判断:这是企业IT的文艺复兴。企业IT将不再只是提供工具让人使用,而是提供高度专业化的AI智能体直接替人完成工作,产业的规模和逻辑都将被重写。
这个比喻让我想到一个更早的历史时刻。14世纪,文艺复兴在意大利兴起,本质上是一场知识的重新流通。古希腊罗马的典籍从修道院的手抄本里被重新发掘出来,学者、艺术家、思想家得以站在人类文明积累的肩膀上重新出发,由此引发了宗教改革、科学革命一连串的历史巨变。大模型做的事情,在结构上与此高度相似。人类几千年积累的知识,原本分散在无数书籍、论文、对话和实验记录里,大多数人终其一生也只能触及极小的一部分。大模型把这些知识压缩进了模型权重,让任何一个普通人只要开口,就能调用人类文明的集体智慧。知识的流通之后,是能力的释放。这,才是这个时代真正的量级。
奥地利开发者Peter Steinberger在2025年11月用一个小时写出了OpenClaw的原型,起初叫Clawdbot,后经数次改名,于2026年1月正式定名。到2026年3月初,该项目在GitHub上已有247,000个星标和47,700个Fork,成为GitHub历史上增长最快的开源项目之一。Steinberger本人已于2026年2月加入OpenAI,专注于开发下一代个人智能体,OpenClaw则转移至独立基金会继续开源运营。
黄仁勋把OpenClaw定义为"Agent计算的开源操作系统":它可以访问工具和文件系统,做任务调度,把复杂任务分解成步骤,拆分并调用子智能体,支持多种输入输出方式。"我刚才描述它用的语法,和我描述操作系统的语法完全一样。"
历史上每一次计算平台转型,都有一个开源标准在正确的时机出现,让整个行业能够抓住它往前走:Linux让企业IT有了开源操作系统,HTTP/HTML开创了互联网,Kubernetes让移动云成为可能。黄仁勋的判断是,OpenClaw正在扮演同样的角色,"和HTML、Linux同等量级"。
OpenClaw在消费端极具灵活性,但在企业环境中面临尖锐的安全问题:智能体可以访问员工信息、财务数据,然后向外部通信,这在企业网络中是不可接受的。
英伟达与Steinberger联合发布了NemoClaw,这是一套企业级参考栈,集成了NVIDIA OpenShell(智能体安全运行时)、网络访问控制、隐私路由,以及可与任意企业系统权限规则对接的接口。权限规则决定智能体能访问哪些数据、能向哪些外部地址通信,OpenShell负责在运行时强制执行这些规则。
黄仁勋的判断是,每一家企业软件公司和SaaS公司,从现在起都将变成GaaS(Generative AI as a Service,生成式AI服务公司),变成智能体服务公司。他还说,未来公司里每个工程师除了薪资,还会有"年度Token预算","我这份工作附带多少Token"将成为硅谷的招聘标准。
---
黄仁勋说:"自动驾驶的ChatGPT时刻到来了。我们现在确知,可以成功实现自主驾驶。"
支撑这句话的,是一份具体的时间表。英伟达与Uber宣布,将于2027年上半年在洛杉矶和旧金山启动由NVIDIA DRIVE AV软件驱动的全自动驾驶车队,到2028年扩展至全球四大洲28座城市。除Uber外,Lyft、爱沙尼亚的Bolt和新加坡的Grab也在使用英伟达系统。
新增的DRIVE Hyperion自动驾驶合作伙伴包括比亚迪、现代、日产、吉利,五十铃(Isuzu)亦宣布加入(英伟达官方新闻稿显示,五十铃与中国Tier IV合作基于该平台开发自动驾驶巴士),加上此前已有的梅赛德斯、丰田、通用汽车,涉及年产量达1800万辆的L4就绪车型。
核心技术是Alpamayo,英伟达在2026年1月CES首发的全球首个具备推理能力的自动驾驶AI。与规则驱动系统不同,Alpamayo能用自然语言描述驾驶决策、解释绕行逻辑,并实时响应乘客的口头指令。目前Alpamayo 1.5版已开源,已有超过10万名汽车开发者下载使用。
机器人方面,大会现场有110台机器人在展场运转。Newton物理仿真引擎(英伟达与Disney Research、DeepMind联合开发)正在成为训练机器人的关键基础设施。ABB、Universal Robots、KUKA等工业机器人巨头均宣布整合英伟达物理AI模型与仿真系统。
---
黄仁勋提出了一个"等功率最大化Token收益"的框架:数据中心的物理功率是固定成本,在此约束下,唯一可以优化的变量是每瓦能生产多少Token,以及生产的Token能卖到哪个价格层。不同代GPU在这个坐标系里的位置差距极大:Grace Blackwell相比Hopper能带来约5倍的工厂理论收益,Vera Rubin再高约5倍。对企业来说,这意味着算力升级不只是性能提升,而是直接影响Token定价能力和收入天花板。
两者在物理上互补:GPU擅长大批量并行推理,Groq LPU擅长极低延迟的单流Token生成,带宽约为GPU的7倍但存储容量只有GPU的1/500。英伟达用Dynamo框架将推理拆分成两个阶段分别交给不同芯片处理,在最高速度区间实现了35倍提升。适合混合配置的场景是:有大量高价值、低延迟推理需求的工作负载,例如面向工程师的实时编程助理、关键路径上的长链推理任务。纯批量数据处理场景仍以100% Vera Rubin为宜。
OpenClaw对企业的实质影响是:以前需要人逐步操作的SaaS工作流,将逐渐被智能体接管,企业IT的采购逻辑和供应商关系都将重构。NemoClaw提供了一个参考安全架构,通过权限规则和运行时强制执行来约束智能体的数据访问和外部通信范围。这套框架在逻辑上是完备的,但能否在实际部署中跑赢安全漏洞的暴露速度,取决于企业自身的权限规则配置质量,以及生态内第三方技能包的安全审计机制是否成熟。
来源:金色财经


