千家信息网

有关 AI PC,英伟达都做了些啥?顺便展望明年的电脑

发表于:2025-01-22 作者:千家信息网编辑
千家信息网最后更新 2025年01月22日,今年 8 月的 SIGGRAPH 大会上,黄仁勋在演讲中给了个演示,给 AI 输入一张工厂规划的 2D CAD 平面图 -- 这张平面图就只是个 PDF 文档,然后跟生成式 AI (Generativ
千家信息网最后更新 2025年01月22日有关 AI PC,英伟达都做了些啥?顺便展望明年的电脑

今年 8 月的 SIGGRAPH 大会上,黄仁勋在演讲中给了个演示,给 AI 输入一张工厂规划的 2D CAD 平面图 -- 这张平面图就只是个 PDF 文档,然后跟生成式 AI (Generative AI) 讲几句话、提几句需求,AI 就能输出一个完整的 3D 虚拟工厂 -- 或者用现在流行的话来说,叫工厂数字孪生 -- 包括工厂仓库地面材料、厂房布局等,基于 OpenUSD 3D 格式的模型。

这个以前需要投入相当人力物力和时间的工作,现在 AI 能在很短的时间里完成。当然具体的实现细节还是待调整的,但这个演示让我们看到了,生成式 AI 在行业应用中的潜在价值,是突破了 ChatGPT、Stable Diffusion 这些爆款的;当然还有就是这个新晋入主市值万亿俱乐部的英伟达,在现如今的 AI 市场有多么风生水起。

我们今年接触的不少 AI 芯片企业,乃至 IP 供应商普遍都在说,数据中心的 AI 训练市场已经被英伟达雄踞了,这部分市场很难再被撼动:比如驱动 ChatGPT、new Bing 这类云服务的算力基础;以及各类大模型的训练,就是英伟达 A100, H100 之类的芯片。

但对整个行业来讲,生成式 AI 这个东风可不能都被英伟达都给借走了:云市场抢不过你,那咱还不能搞搞边缘推理市场吗? 所以今年从上至下不同层级的企业都在宣传边缘,乃至端侧的生成式 AI。

从广义的"边缘"概念来看,不光是边缘数据中心、企业网关这些边缘,端侧市场上 Intel 已经宣传了大半年的 AI PC,联发科则在年底收官前发布了能跑生成式 AI 的手机 AP SoC,甚至还有一些搞嵌入式芯片的企业也在谈生成式 AI。

但实际上即便是边缘市场,英伟达也是有自己的杀手锏的,抛开各类 Jetson 芯片、IGX 平台这些更偏行业和企业应用的边缘不谈,英伟达在 PC 端的 GeForce 显卡不就是现在个人用户做 AI 研究,以及 AI 技术爱好者使用最广泛的平台么?

其实自疫情结束后,PC 市场开始呈现出颓势之际,PC 行业的主要市场参与者就开始了 AI PC 的宣传。现在看来,生成式 AI 大概的确会成为接下来这一波让 PC 市场再度上扬的大热门。市场上谈 AI PC 最大声的,现阶段显然就是 Intel 及各 OEM 企业了。但实际在包括 CUDA 生态在内的 Nvidia AI 全栈构建 AI 生态最久,大概也最有资格说 AI PC 的,应该就是英伟达本达了。

今年 9 月,英伟达发布了开源的 TensorRT-LLM,这是个专用于 LLM 大语言模型推理的工具,特点是能够加速 LLM 的推理性能 -- 不过当时主打的仍然是为 H100 推理加速。10 月份 TensorRT-LLM for Windows 版本发布,主要是实现了裸金属 Windows 平台的单卡 GPU 推理,重点是特别明确了对 GeForce RTX 40 系显卡的支持,使 PC 生成式 AI 速度提高 4 倍。与此同时,TensorRT 加速也已应用于热门应用 Stable Diffusion WebU 中,将生成式 AI Diffusion 模型的速度提升 2 倍。这就显然有着意 AI PC 的意思了,大概可以说是正式打响英伟达在 AI PC 战役的开端,即便英伟达从来不是最近才开始在 PC 上做 AI 的。

我们来展开看看在 AI PC 这个概念上,尤其生成式 AI 加速,英伟达都有哪些东西。顺便聊聊 AI PC 是不是真的有价值。

GeForce 显卡的生成式 AI 实现基础

想在端侧 AI 市场分一杯羹的市场玩家还是很多的,比如 Intel 要在新一代面向 PC 的 Meteor Lake 处理器中加入专门的 NPU 加速单元,AMD Ryzen 处理器现在还有专门的 Ryzen AI 品牌概念宣传,联发科的天玑 9300 手机芯片内部的 AI 单元特别集成了所谓的"生成式 AI 加速引擎"... 响应的 OEM 厂商就更多了,微软也期望能在这一局里做 AI / ML 的标准制定者。

显然,在去年底今年初以 ChatGPT 为代表的生成式 AI 再度引爆 AI 市场以后,主要的市场参与者对端侧 AI 是抱着巨大的期望的。其实强调端侧或者本地 AI 推理的原因很好理解:第一是如文首所述,这么好的技术和热点可不能英伟达一家独美,大家都要分蛋糕;第二是本地 AI 推理有着云无法比拟的一些优势。

这些优势应该已经老生常谈了,无非就是云和边缘两侧各自的优缺点,这些优势再搬到 AI 上来:包括数据安全与隐私,延迟需求,以及无法确保实时的云连接等。不过实际上对 AI 而言,像 ChatGPT、Midjourney 这类面向大众的云 AI,相比于本地部署 AI 模型还有个巨大的弱势,即不能根据个体需求做定制。

如果把视野放宽到消费市场以外,AI 走向边缘也因此成为必然:起码企业一定需要边缘 AI 来提升生产力,这也是我们预判明年生成式 AI 发展的模式走向。对个人用户来说,无论是做科学研究,还是用于具体的生产力,端侧本地的 AI 也有可定制和更为自由灵活的优势,比如说用 Stable Diffusion 这类复合式模型画小姐姐的需求,在 Midjourney 上有被拒绝服务的可能 (不是)...

作为云上 AI 的王者,英伟达在端侧,尤其具体到 PC 端又有什么样的储备呢? 绝大部分同学应该都知道,英伟达从 Turing 架构开始给 GeForce RTX GPU 加入了 Tensor Core,也就是可加速 AI 运算的专用硬件单元。与此同时,2021 年的秋季 GTC 上,黄仁勋在主题演讲中就多次强调了 Transformer 的价值,以及 LLM 的潜力。

次年英伟达发布 Hopper 架构的 H100 加速卡,就果断引入 Transformer Engine 库,搭配新一代的 Tensor Core 硬件以数倍提升 Transformer 模型处理的性能。当时在 GPU 上做明确更偏专用的加速,看起来还是挺大胆的。同年 10 月,对应的 Ada Lovelace 架构的 GeForce RTX 40 系 GPU 发布,很自然的也有了 Transformer 引擎支持 -- 虽然它只是个图形卡。

Dall-E, ChatGPT 在全球范围内的爆发实际上是在 Hopper 和 Ada Lovelace 加入 Transformer 引擎以后。当然 LLM 和 Stable Diffusion 这类大模型的火热还是趋势使然,只不过英伟达能在热点引爆以前就着力于硬件部署,然后在今年的 GTC 上英伟达很自然地播放了一段此前黄仁勋将 DGX 交给 OpenAI 的名场面。很快英伟达的市值就飙升万亿了。这前瞻水平的确不可谓不高...

这里我们再稍微谈一谈 Transformer 和生成式 AI 究竟是什么关系。Transformer 在结构上采用一种所谓的自注意力 (self-attention) 机制,捕捉全局相关性、在一个队列内不同 element 的关系。Transformer 最早主要适用于 NLP (natural language processing,自然语言处理),因为其自注意力机制能够让队列中每个 element 与其他所有 element 相关联,模型就能基于 element 关联上下文,来权衡其重要性。

说点人话,GPT 就是 Generative Pre-trained Transformer 的缩写,基于或部分基于 Transformer 是很符合这种模型特性的。LLM 大语言模型普遍是基于 Transformer 结构,比如 ChatGLM,比如 Llama,这两年都挺火。

另外,原本 CNN 卷积神经网络和 Transformer 的工作领域是有差别的,前者被认为更适合做图像分类、对象识别之类的工作。但后来谷歌发了个 paper,说把图像切割成小片,每一片当成一个单字、token,则也能以较高精度来学习如何识别对象,达成不错的并行度和灵活性,令 Transformer 也适用于大规模图像识别、CV 工作。Diffusion 模型就有基于 Transformer 的尝试。

也不用去细究 Transformer 和 Diffusion 是个什么关系,发展潜力如何。英伟达此前在发布 L40 和 RTX 6000 GPU 时,就特别强调了 Stable Diffusion 出图 (推理) 性能提升 -- 这俩也都是基于 Ada Lovelace 架构的,只不过和 GeForce 的市场定位不同。

所以总的来说,英伟达在 AI PC 硬件层面的准备工作是比其他竞争对手快了几个身位的 -- 虽然这一点似乎主要还是依托于英伟达在数据中心 AI HPC 领域的先期成功 -- 当然在生态上就涵盖了已经十多年历史的、让 GPU 能够做各类通用计算的 CUDA,及其后 AI 作为一部分的布局了。

工具与生态:生成式 AI 本地推理要提速

在 AI 训练和推理的问题上,大量市场研究数据都表明推理的市场一定是更大的 -- 施耐德电气的数据是,从用电量的角度来看,全球范围内 AI 训练和推理功耗,两者现在的比例大约是 2:8; 未来还会更进一步偏向推理侧。所以很显然英伟达是不会放过推理市场的。

我们每次和 ChatGPT 说上一句话,ChatGPT 就要进行一次 AI 推理 (inference); 每次 Stable Diffusion 出图个小姐姐,也就在本地进行了一次 AI 推理。这两者的算力量级还是不一样的。今年的春季 GTC 上,英伟达有特别面向 LLM 推理发布过一款 H100 NVL,着眼的是需求较大算力需求的推理。

至于 PC 端侧,和数据中心显卡一样,大家都是 Ampere 或 Ada Lovelace 架构,基于英伟达构建的软件栈,用 GeForce RTX 显卡做 AI 推理也是水到渠成。而且似乎 PC 行业媒体做显卡评测时,前两年就已经把 Stable Diffusion 的本地推理纳入考量范畴了 -- 大部分主要是基于 Stable Diffusion WebUI (A1111,能跑 Stable Diffusion 的一个 GUI 图形用户界面)。用 GeForce RTX 显卡跑 Stable Diffusion WebUI 的基础当然是 CUDA。

所以最早有"AI PC"实现基础的就是英伟达,毕竟其生态和软件栈的布局,以及社区发明的各类玩法算是相当早了。Intel 从今年初开始推 AI PC 的概念,事实上是比英伟达晚了不少的。我们之前一直说 Intel 的软件工程师今年加班应该会很多,虽然 Intel 很大程度借助了开源社区的力量,但是把全栈搭得像模像样,让 Stable Diffusion 及各类 LLM 模型跑在自家 CPU 和 GPU 上,的确还是下了不少功夫的:无论是年初能跑起来,还是下半年的优化工作。

感觉今年 10 月,英伟达是明确开始更重视 AI PC 这个议题了。10 月份英伟达亲自下场为 Stable Diffusion WebUI 做了个 TensorRT 扩展。TensorRT 是啥呢? 这里的 RT 是 runtime 的意思,所以它首先是 AI 应用部署的一个 runtime 库;另外这也是个推理优化工具 -- 它给出 API 和分析器,导入 AI 模型,然后生成优化过的 runtime 运行时引擎。

换句话说,这个 TensorRT 插件,是让 AI 模型在 Stable Diffusion WebUI 里面跑 (推理) 得更快了。B站up 主 Nenly 给出的实测数据是 AI 推理性能提升 3 倍,也就是用 Stable Diffusion 画小姐姐比之前没有 TensorRT 插件要快 3 倍吧;英伟达给的数据是,这个插件跑在 GeForce RTX 4090 上,Stable Diffusion 推理速度比 M2 Ultra 快了 7 倍 (也算是欺负苹果的生态了), 正式让 AI 生图进入秒速时代。

Stable Diffusion TensorRT 实测成绩 by Nenly 同学

其实 TensorRT 这个工具本身的引入也有些年头了,遥想 2019 年和更早的年份,这个中间件的版本迭代还是 GTC 历年更新的热点。

而 9 月发布的 TensorRT-LLM 显然就是基于 TensorRT 的,后缀 LLM 则是大语言模型。Github 上给出的定义是,TensorRT-LLM 为用户提供易于使用的 Python API 来定义 LLM,并构建包含高水准优化的 TensorRT 引擎,在英伟达 GPU 上执行高效的推理 (另外也包含能够跑 TensorRT 引擎的 runtime 组件)。

英伟达将其定义为,令生成式 AI 应用投入生产的主干 (backbone)。简单来说也就是能够为 LLM 推理加速、优化的工具。英伟达的宣传资料中提到 TensorRT-LLM v0.6.0"带来至高达 5 倍的推力性能提升,并支持更多热门的 LLM"。

英伟达官网介绍中还特别提到 TensorRT-LLM 有利用 FastTransformer-- 这是英伟达针对 Transformer 模型开发的优化库。从这些组成部分来看,TensorRT-LLM 也算得上是集合多年经验的成果。用英伟达在 Q3 财报电话会议上的话来说,就是"我们投入安装基础 (installed base) 20 多年了;任何时间你看到英伟达 GPU,它都跑我们的栈",当然也包括 GeForce。

10 月份,TensorRT-LLM for Windows 发布,明确了对于 GeForce RTX 单卡推理的支持。这东西和 Stable Diffusion WebUI 的 TensorRT 插件算是同时发布,怎么看都有要把 AI PC 真正做起来的意图。宣传中提到 TensorRT-LLM for Windows 使 PC 生成式 AI 速度提高 4 倍。

在 PC 本地跑生成式 AI 也会因此变得更实用,包括 Llama 这类比较流行的 LLM 模型,有兴趣的同学可以尝试在本地部署。具体是做 LLM 研究,还是用来聊天、写文案、写代码、查资料,或者和别的技术再做结合,那就是 PC 端用户及开发者要思考的问题了。

这部分最后再谈一点:在 PC 端的 AI 软件栈尚未真正统一的情况下,微软的 AI API 也是很值得观察的,比如 DirectML。DirectML 算是 DirectX 12 的组成部分,是微软以操作系统供应商的身份给出的机器学习 API,现在对大部分芯片厂的 GPU 都提供 AI 加速支持,通用性更好。像 Stable Diffusion WebUI 也有 DirectML 版,只不过效率上可能会略差于芯片厂给的专用 API。

这次英伟达也和微软一起特别为跑在 DirectML API 上的 Llama 模型做了优化,英伟达可能主要是做了 GPU 驱动层面的优化。这也算是 AI PC 生态构建的多面出击吧。

拥抱生成式 AI,拥抱 AI PC

其实边缘、端侧 AI 也未必得限定在生成式 AI 上。虽然"AI PC"这个概念主要是今年才被提出的,但 PC 平台应用 AI 技术却应该是自英伟达 Turing 架构 (RTX 20 系显卡) 引入就开始的,要不然 Tensor Core 出了这么多年,用来干啥呢?

PC 游戏中的 AI 深度学习超级采样技术 DLSS,就属于典型的 AI 在游戏领域的应用:很多像素都不是靠 GPU 图形单元渲染出来的,而是靠 AI 生成的 --DLSS 3 都开始生成帧了,3.5 都开搞光线重建了,这些都是 AI 在做的。

还有像是最近更新的 RTX VSR 视频超分辨率,将低分辨率的流播画面通过 AI 超分为高分辨率,新版本据说还能在原始分辨率播放内容时,消除画面伪影和压缩失真...... 加上英伟达还有视频会议眼神注视、画面超分等 AI 技术与特性,此类技术都应该算是 AI PC 的组成部分,即便它们并不算是生成式 AI。

而生成式 AI 的到来则必将加速 AI PC 对于 AI 技术的深入应用。有关生成式 AI 在 PC 平台的应用问题,预计随着生成式 AI、大模型自身的发展,我们在明后年就能找到答案,大概率会有对应的杀手级应用出现,就看开发者们天马行空的创意了。

ChatGPT 引爆市场以来,大众讨论最多的一个问题似乎是生成式 AI 要抢占人类的工作和地位了,我们是不是要失业了? 在机械重复性工作的确可能面临时代淘汰的危机下,这个时代愿意拥抱生成式 AI 的,也大有人在。而他们是真正将生成式 AI 作为生产力工具,引导自身和时代未来发展的一批人。

赵恩哲

比如最近首位获得雨果奖的华人艺术家赵恩哲就以自己的手绘设计为基础,借助 GeForce RTX 显卡,用 Stable Diffusion 创作了主题为《虚空之舟》的作品。赵恩哲说:"从游戏电影行业产品的角度,用 AI 与算力降本增效来赋能开发,这是值得肯定的。我个人喜欢手绘未来感的战舰,更希望将这些战舰与我心中的世界变成一部大片,一部游戏,原来靠我一个人的生产力是不太可能实现的。"

"现在有了 AI 辅助创作工具,可以基于我的想象力,给到我各种技术实现的可能性,原来要实现现在的结果至少需要很多工作者,几个月的努力,现在却在几秒钟内呈现在我的面前。"这个例子应该是颇具代表性的,艺术家将 AI 与算力变成自身想象力扩展的工具。

虚空之舟

回到 AI PC 的话题。其实从高维度的系统层面来看,虽说现阶段 PC 行业几个主要市场竞争者的芯片跑生成式 AI 的上层软件栈差别非常大,但最终都是为知名的大模型服务。就系统层面来评判各家跑 AI 的效率是可行的,比如说在所有层级都达成芯片企业部署的最高优化水平时,用 Stable Diffusion 生成图,看各家芯片和软件需要多久。

明年我们应该能看到这样的比较,对几家主要竞争者而言都会是考验。先预测一波,就英伟达在这个领域的多年积累,即便不说芯片架构水平,软件栈和生态的实力应该都足够 GeForce RTX GPU 在这类竞争中拔得头筹。对于生成式 AI 所需的大模型而言,算力仍然是必须的资源,而生态是高效利用资源的保障。

在 PC 行业的新一轮革命中,拥抱生成式 AI 的 AI PC 在当下才真正具备了竞争力。

0