千家信息网

谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频

发表于:2024-10-14 作者:千家信息网编辑
千家信息网最后更新 2024年10月14日,CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。AI 模型目前很难处理不同的数据流,如果要让 AI
千家信息网最后更新 2024年10月14日谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频

CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。

AI 模型目前很难处理不同的数据流,如果要让 AI 理解视频,需要整合视频、音频和文本等不同模态的信息,这大大增加了难度。

谷歌和谷歌 Deepmind 的研究人员提出了新的方法,将多模态理解扩展到长视频领域。

借助 Mirasol AI 模型,该团队试图解决两个关键挑战:

  • 需要以高频采样同步视频和音频,但要异步处理标题和视频描述。

  • 视频和音频会生成大量数据,这会让模型的容量紧张。

谷歌在 Mirasol 中使用合路器(combiners)和自回归转换器(autoregressive transformer)模型。

该模型组件会处理时间同步的视频和音频信号,然后再将视频拆分为单独的片段。

转换器处理每个片段,并学习每个片段之间的联系,然后使用另一个转换器处理上下文文本,这两个组件交换有关其各自输入的信息。

名为 Combiner 的新颖转换模块从每个片段中提取通用表示,并通过降维来压缩数据。每个段包含 4 到 64 帧,该模型当前共有 30 亿个参数,可以处理 128 到 512 帧的视频。

在测试中,Mirasol3B 在视频问题分析方面达到了新的基准,体积明显更小,并且可以处理更长的视频。使用包含内存的组合器变体,该团队可以将所需的计算能力进一步降低 18%。

CTOnews.com在此附上 Mirasol 的官方新闻稿,感兴趣的用户可以深入阅读。

视频 模型 处理 片段 音频 数据 转换器 模态 不同 两个 信息 文本 新闻 新闻稿 组件 问题 同步 有关 参数 新颖 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 我校检查网络安全简报 网络安全哪个部门最好 服务器管理哪个质量好 支付宝网络技术有限公司在哪 软件开发好还是找工作好 属于保护网络安全的措施有 国家网络安全局叫什么意思 医保网络安全创新方案 网络安全宣传题 计算机网络技术专业对应的职业 如何关闭共享打印服务器 杰控组态软件开发 app用什么服务器 外国网络安全审查 明恩玉杰网络技术工作室创始人 中信银行软件开发中心蒋怀深 北京 网络技术有限公司待遇 警方提示网络安全 mek挖矿机服务器 临汾支付宝网络技术公司 服务器工业级固态硬盘有多大 甘肃联想服务器虚拟化哪家好 qt读取数据库添加进度条 2003数据库怎么查询会员 徐州智能网络安全 如何查看数据库表某一行内容 网络安全展示产品 亿家安互联网科技公司直播间 广电网络技术部考核管理办法 软件开发的大学专业好
0