谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频
发表于:2024-11-30 作者:千家信息网编辑
千家信息网最后更新 2024年11月30日,CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。AI 模型目前很难处理不同的数据流,如果要让 AI
千家信息网最后更新 2024年11月30日谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频
CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。
AI 模型目前很难处理不同的数据流,如果要让 AI 理解视频,需要整合视频、音频和文本等不同模态的信息,这大大增加了难度。
谷歌和谷歌 Deepmind 的研究人员提出了新的方法,将多模态理解扩展到长视频领域。
借助 Mirasol AI 模型,该团队试图解决两个关键挑战:
需要以高频采样同步视频和音频,但要异步处理标题和视频描述。
视频和音频会生成大量数据,这会让模型的容量紧张。
谷歌在 Mirasol 中使用合路器(combiners)和自回归转换器(autoregressive transformer)模型。
该模型组件会处理时间同步的视频和音频信号,然后再将视频拆分为单独的片段。
转换器处理每个片段,并学习每个片段之间的联系,然后使用另一个转换器处理上下文文本,这两个组件交换有关其各自输入的信息。
名为 Combiner 的新颖转换模块从每个片段中提取通用表示,并通过降维来压缩数据。每个段包含 4 到 64 帧,该模型当前共有 30 亿个参数,可以处理 128 到 512 帧的视频。
在测试中,Mirasol3B 在视频问题分析方面达到了新的基准,体积明显更小,并且可以处理更长的视频。使用包含内存的组合器变体,该团队可以将所需的计算能力进一步降低 18%。
CTOnews.com在此附上 Mirasol 的官方新闻稿,感兴趣的用户可以深入阅读。
视频
模型
处理
片段
音频
数据
转换器
模态
不同
两个
信息
文本
新闻
新闻稿
组件
问题
同步
有关
参数
新颖
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
无线网络技术在农业的应用例子
天津富士康软件开发怎么样
交通广播服务器繁忙
惠州微商软件开发联系方式
饥荒专用服务器管理员代码
辽宁省网络安全营口赛区
个人学网络安全宣传周
什么叫基于服务的软件开发
江苏大型软件开发概念设计
gk服务器
qq数据库泄露事件2019年
刺激战场亚洲服务器最诡异的一次
互联网科技时代的童年
户口已落户数据库没有个人信息
阿里产业互联网布局 朗新科技
手机软件开发的前途
江苏省智慧共享自行软件开发
小学生电视网络安全教育
浪潮服务器管理地址
电力监控系统网络安全管理体系
山西网络技术服务建议
澄海区网络安全活动
用友t6的数据库在哪里
福尔摩斯小说软件开发
长沙网络安全和信息化委员会
wdcp定时备份数据库
中国软件开发学校排名
常用的服务器型号
美国互联网高科技类公司排名
软件开发能做到多少岁
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售