导航：首页 > IT资讯 >

Wayve 展示 GAIA-1 自动驾驶世界模型，号称可预测事件“看见未来”

发表于：2024-12-12 作者：千家信息网编辑

千家信息网最后更新 2024年12月12日，CTOnews.com 10 月 9 日消息，英国 AI 初创公司 Wayve 公布了旗下 GAIA-1 生成式模型的最新进展，在今年 6 月的时候，Wayve 建立了将生成式模型用于自动驾驶的概念性

千家信息网最后更新 2024年12月12日Wayve 展示 GAIA-1 自动驾驶世界模型，号称可预测事件“看见未来”

CTOnews.com 10 月 9 日消息，英国 AI 初创公司 Wayve 公布了旗下 GAIA-1 生成式模型的最新进展，在今年 6 月的时候，Wayve 建立了将生成式模型用于自动驾驶的概念性验证，而在这几个月中，Wayve 公司持续扩展 GAIA-1，使其拥有 90 亿个参数，能够生成逼真的驾驶场景影片，展示自动驾驶"在各种情境的反应"，并且更好地预测未来事件。

▲ 图源 Wayve

GAIA-1 是一个可以利用不同类型的资料，包括影片、文字和动作，创建逼真驾驶场景影片的世界模型（World Model）。可对自动驾驶车辆的行为和场景特征进行细致的控制，且由于 GAIA-1 多模态的性质，能够从多种提示模式和组合中生成相关视频。

▲ 图源 Wayve

官方提到，GAIA-1 可对环境进行学习，从而提供结构性的环境理解，协助自动驾驶系统做出明智的决策。而"预测未来事件"是该模型的基本关键能力，而对未来的准确预测，可以让自动驾驶车辆预先知道即将发生的事件，从而规划对应的动作，增加汽车上路时的安全性和效率。

据悉，GAIA-1 会先运用专门的编码器，将影片或文字等各种形式的输入，编码成一个共享的表示形式，进而在模型中实现统一的时序对齐和上下文理解，这种编码方法，让模型能够更好地整合和理解不同类型的输入。

▲ 图源 Wayve

而 GAIA-1 的核心，是一个自回归 Transformer，能够预测序列中下一组图像 token，世界模型不只考虑过去的图像 token，还参照文字和动作 token 的上下文资讯，运用这个方法所生成的图像 token，不仅会在视觉上连贯，而且和预期的文字和动作指引保持一致。

在此之后，模型会启动视频解码器这个阶段被启动，主要功能是将这些图像 token 转换回像素空间，视频解码器作为一个扩散模型，其强大之处主要在于可保证生成的影片，具语义意义、视觉准确且时间序一致性。

▲ 图源 Wayve

CTOnews.com从官网得知，GAIA-1 的世界模型经过 64 个英伟达 A100 GPU 上长达 15 天的训练，包含了高达 65 亿个参数，而视频解码器则在 32 个英伟达 A100 GPU 上训练了 15 天，总共拥有 26 亿个参数。

GAIA-1 的主要价值，是在自动驾驶中引入生成式世界模型的概念，透过整合影片、文本和动作输入，展示多模态学习在创建多样化驾驶情境的潜力，而且透过整合世界模型与驾驶模型，使驾驶模型能够更好地理解自己的决策，并且泛化至真实世界的情境中，进而提升自动驾驶系统的能力。

很赞哦！

模型驾驶世界影片生成动作文字视频事件参数图像场景情境编码解码器整合输入不同逼真一致数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全怎么判断数据库中已有记录湖南盘古软件开发有限公司吉林省网络安全中标兼职做软件开发后续跟进软件开发即征即退2019 北京行为管理服务器多少钱福建网络安全审计硬件设备提供商浙江智能软件开发诚信经营 linux下载服务器文件至本地思科网络技术电子书孙光荣徒弟数据库魔兽世界npc数据库说明能不能边工作边培训软件开发玩的游戏更新后找不到以前服务器网络安全保障局公安部小米手机微信无法连接服务器在线学习软件开发外包色选机软件开发博客数据库并发优化健身俱乐部软件开发基于主机的网络安全检测网络安全国家重点实验室软件开发试用期工资8折 hp服务器双网卡绑定红警战网mod服务器什么意思删除数据库使用哪个关键字网络技术手机题库梅州软件开发公司在哪里网络技术未来的规划数据库phone类型

千家信息网

千家信息网

Wayve 展示 GAIA-1 自动驾驶世界模型，号称可预测事件“看见未来”

俄罗斯圣彼得堡理工大学开发出可以替代光刻机的芯片制造工具

消息称索尼 10 月 PS+ 游戏包括《哥谭骑士》《极乐迪斯科》等

相关文章