谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频
发表于:2024-10-14 作者:千家信息网编辑
千家信息网最后更新 2024年10月14日,CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。AI 模型目前很难处理不同的数据流,如果要让 AI
千家信息网最后更新 2024年10月14日谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频
CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。
AI 模型目前很难处理不同的数据流,如果要让 AI 理解视频,需要整合视频、音频和文本等不同模态的信息,这大大增加了难度。
谷歌和谷歌 Deepmind 的研究人员提出了新的方法,将多模态理解扩展到长视频领域。
借助 Mirasol AI 模型,该团队试图解决两个关键挑战:
需要以高频采样同步视频和音频,但要异步处理标题和视频描述。
视频和音频会生成大量数据,这会让模型的容量紧张。
谷歌在 Mirasol 中使用合路器(combiners)和自回归转换器(autoregressive transformer)模型。
该模型组件会处理时间同步的视频和音频信号,然后再将视频拆分为单独的片段。
转换器处理每个片段,并学习每个片段之间的联系,然后使用另一个转换器处理上下文文本,这两个组件交换有关其各自输入的信息。
名为 Combiner 的新颖转换模块从每个片段中提取通用表示,并通过降维来压缩数据。每个段包含 4 到 64 帧,该模型当前共有 30 亿个参数,可以处理 128 到 512 帧的视频。
在测试中,Mirasol3B 在视频问题分析方面达到了新的基准,体积明显更小,并且可以处理更长的视频。使用包含内存的组合器变体,该团队可以将所需的计算能力进一步降低 18%。
CTOnews.com在此附上 Mirasol 的官方新闻稿,感兴趣的用户可以深入阅读。
视频
模型
处理
片段
音频
数据
转换器
模态
不同
两个
信息
文本
新闻
新闻稿
组件
问题
同步
有关
参数
新颖
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
我校检查网络安全简报
网络安全哪个部门最好
服务器管理哪个质量好
支付宝网络技术有限公司在哪
软件开发好还是找工作好
属于保护网络安全的措施有
国家网络安全局叫什么意思
医保网络安全创新方案
网络安全宣传题
计算机网络技术专业对应的职业
如何关闭共享打印服务器
杰控组态软件开发
app用什么服务器
外国网络安全审查
明恩玉杰网络技术工作室创始人
中信银行软件开发中心蒋怀深
北京 网络技术有限公司待遇
警方提示网络安全
mek挖矿机服务器
临汾支付宝网络技术公司
服务器工业级固态硬盘有多大
甘肃联想服务器虚拟化哪家好
qt读取数据库添加进度条
2003数据库怎么查询会员
徐州智能网络安全
如何查看数据库表某一行内容
网络安全展示产品
亿家安互联网科技公司直播间
广电网络技术部考核管理办法
软件开发的大学专业好
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售