千家信息网

谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频

发表于:2024-11-30 作者:千家信息网编辑
千家信息网最后更新 2024年11月30日,CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。AI 模型目前很难处理不同的数据流,如果要让 AI
千家信息网最后更新 2024年11月30日谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频

CTOnews.com 11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。

AI 模型目前很难处理不同的数据流,如果要让 AI 理解视频,需要整合视频、音频和文本等不同模态的信息,这大大增加了难度。

谷歌和谷歌 Deepmind 的研究人员提出了新的方法,将多模态理解扩展到长视频领域。

借助 Mirasol AI 模型,该团队试图解决两个关键挑战:

  • 需要以高频采样同步视频和音频,但要异步处理标题和视频描述。

  • 视频和音频会生成大量数据,这会让模型的容量紧张。

谷歌在 Mirasol 中使用合路器(combiners)和自回归转换器(autoregressive transformer)模型。

该模型组件会处理时间同步的视频和音频信号,然后再将视频拆分为单独的片段。

转换器处理每个片段,并学习每个片段之间的联系,然后使用另一个转换器处理上下文文本,这两个组件交换有关其各自输入的信息。

名为 Combiner 的新颖转换模块从每个片段中提取通用表示,并通过降维来压缩数据。每个段包含 4 到 64 帧,该模型当前共有 30 亿个参数,可以处理 128 到 512 帧的视频。

在测试中,Mirasol3B 在视频问题分析方面达到了新的基准,体积明显更小,并且可以处理更长的视频。使用包含内存的组合器变体,该团队可以将所需的计算能力进一步降低 18%。

CTOnews.com在此附上 Mirasol 的官方新闻稿,感兴趣的用户可以深入阅读。

视频 模型 处理 片段 音频 数据 转换器 模态 不同 两个 信息 文本 新闻 新闻稿 组件 问题 同步 有关 参数 新颖 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 无线网络技术在农业的应用例子 天津富士康软件开发怎么样 交通广播服务器繁忙 惠州微商软件开发联系方式 饥荒专用服务器管理员代码 辽宁省网络安全营口赛区 个人学网络安全宣传周 什么叫基于服务的软件开发 江苏大型软件开发概念设计 gk服务器 qq数据库泄露事件2019年 刺激战场亚洲服务器最诡异的一次 互联网科技时代的童年 户口已落户数据库没有个人信息 阿里产业互联网布局 朗新科技 手机软件开发的前途 江苏省智慧共享自行软件开发 小学生电视网络安全教育 浪潮服务器管理地址 电力监控系统网络安全管理体系 山西网络技术服务建议 澄海区网络安全活动 用友t6的数据库在哪里 福尔摩斯小说软件开发 长沙网络安全和信息化委员会 wdcp定时备份数据库 中国软件开发学校排名 常用的服务器型号 美国互联网高科技类公司排名 软件开发能做到多少岁
0