H100 推理性能最高提升 8 倍,英伟达发布 TensorRT-LLM
发表于:2025-02-22 作者:千家信息网编辑
千家信息网最后更新 2025年02月22日,感谢CTOnews.com网友 OC_Formula 的线索投递!CTOnews.com 9 月 9 日消息,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopp
千家信息网最后更新 2025年02月22日H100 推理性能最高提升 8 倍,英伟达发布 TensorRT-LLM
感谢CTOnews.com网友 OC_Formula 的线索投递!
CTOnews.com 9 月 9 日消息,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。
英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3(175 B),Llama、Falcom(180 B)和 Bloom 模型。
TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。
该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。
在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。
在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。
CTOnews.com在此附上报告原文,感兴趣的用户可以深入阅读。
性能
推理
英伟
处理
方案
模型
亮点
任务
兴趣
内核
动态
原文
吞吐量
基础
多个
密集型
尖端
技术
报告
消息
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全的手抄报简单的
陈鑫杰网络安全破解
网络安全监管政策
影像处理软件开发硕士就业
2021服务器市场占有率排名
函数在软件开发中的用途
遥感卫星影像处理软件开发
中国重要报纸全文数据库如何统计
英语不好学软件开发难吗
攀枝花存储服务器
网络安全技术mooc答案
华创奇信互联网科技
目前最热门的网络技术
服务器硬盘使用视频
软件开发 amd有没有影响
软件开发实习生如何转正
肿瘤相关临床数据库
软件开发的低层结构
mac炒股交易软件开发
网上报税软件开发难度如何
计算机网络安全期末试卷
软件开发要炒股吗
服务器root密码重置
flatfile数据库格式
小型机与x86服务器
数据库保护的四个系统
服务器多块硬盘怎么搭配阵列卡
娄底游戏软件开发
net数据库工具
管家婆做服务器安全吗
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售