谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频
发表于:2025-02-06 作者:千家信息网编辑
千家信息网最后更新 2025年02月06日,CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。AI 模型目前很难处理不同的数据流,如果要让 AI
千家信息网最后更新 2025年02月06日谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频
CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。
AI 模型目前很难处理不同的数据流,如果要让 AI 理解视频,需要整合视频、音频和文本等不同模态的信息,这大大增加了难度。
谷歌和谷歌 Deepmind 的研究人员提出了新的方法,将多模态理解扩展到长视频领域。
借助 Mirasol AI 模型,该团队试图解决两个关键挑战:
需要以高频采样同步视频和音频,但要异步处理标题和视频描述。
视频和音频会生成大量数据,这会让模型的容量紧张。
谷歌在 Mirasol 中使用合路器(combiners)和自回归转换器(autoregressive transformer)模型。
该模型组件会处理时间同步的视频和音频信号,然后再将视频拆分为单独的片段。
转换器处理每个片段,并学习每个片段之间的联系,然后使用另一个转换器处理上下文文本,这两个组件交换有关其各自输入的信息。
名为 Combiner 的新颖转换模块从每个片段中提取通用表示,并通过降维来压缩数据。每个段包含 4 到 64 帧,该模型当前共有 30 亿个参数,可以处理 128 到 512 帧的视频。
在测试中,Mirasol3B 在视频问题分析方面达到了新的基准,体积明显更小,并且可以处理更长的视频。使用包含内存的组合器变体,该团队可以将所需的计算能力进一步降低 18%。
CTOnews.com在此附上 Mirasol 的官方新闻稿,感兴趣的用户可以深入阅读。
视频
模型
处理
片段
音频
数据
转换器
模态
不同
两个
信息
文本
新闻
新闻稿
组件
问题
同步
有关
参数
新颖
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
荒宅数据库 上三门
无棣县网络安全和信息化委员会
网络安全交易监督管理ppt
北京it软件开发师月薪一般多少
万方数据库发布文章
imagine视频服务器
网络安全技术指标是什么
宁波信息报修管理软件开发
惠州市橙果网络技术
公安通信网络安全
网络技术人员简介
网络技术三级买什么教材
软件开发服务属于科目
数据库vfp教程
贵阳服务器专卖
南邮考研通信与网络安全
专业学习网络技术的好处
山西软件开发商
网络技术招商合同
手机连接网络安全性怎么选
服务器安全狗安装失败
网络安全宣传主题班会总结
青岛二四合互联网科技
如何做好网络安全与个人信息保护
中国信息网络安全联盟
华为网络技术视频
全国网络安全员相关书籍
达梦数据库关闭
网络安全形势评估
dellr740服务器硬盘支架
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售