阿里云开源通义千问多模态视觉模型 Qwen-VL,号称“远超同等规模通用模型表现”
发表于:2024-09-30 作者:千家信息网编辑
千家信息网最后更新 2024年09月30日,感谢CTOnews.com网友 西窗旧事、华南吴彦祖 的线索投递!CTOnews.com 8 月 25 日消息,阿里云今日推出了大规模视觉语言模型 Qwen-VL,目前已经在 ModeScope 开源
千家信息网最后更新 2024年09月30日阿里云开源通义千问多模态视觉模型 Qwen-VL,号称“远超同等规模通用模型表现”▲ 图源 ArXiv 论文 ▲ 图源 modelscope ▲ 图源 modelscope
感谢CTOnews.com网友 西窗旧事、华南吴彦祖 的线索投递!
CTOnews.com 8 月 25 日消息,阿里云今日推出了大规模视觉语言模型 Qwen-VL,目前已经在 ModeScope 开源,CTOnews.com早前曾报道,阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。
据悉,Qwen-VL 是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的 VL 模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
Qwen-VL 以 Qwen-7B 为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的 LVLM 模型通常仅支持 224 分辨率。
官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。
此外,在 Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于 GPT-4 打分机制的测试集 "试金石",对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。
模型
视觉
能力
模态
图像
语言
对话
支持
问答
通义
测试
评测
阿里
中英
分辨率
团队
得了
机制
定位
输入
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
联合国数据库的数据怎么看
嘉峪关市网络安全和信息化工作会
ae互联网连线科技城市制作
django 多数据库
今年以来发生的网络安全事件
照片数据转数据库
.myd数据库如何转换
网络安全应急服务支撑单位条件
网络安全相声小品
与动漫有关的网络技术
hpc 服务器
软件开发演变过程
星际家园哪个服务器人最多
机架式服务器优缺点
dell服务器盘槽是通用的么
mcpe1.1服务器
作为计算机网络安全行为的准则
网络安全防护图片卡通
计算机网络技术专业高数
马化腾说网络安全问题视频
网络安全与执法专业和网络安全
软件开发经验如何写
商搜网络技术有限公司
云数据库带宽
vps 游戏服务器
d国家网络安全宣传周
中国电信网络技术工程师
软件开发过程的主要步骤
谷歌服务器是哪个公司的
将PHP数据更新回数据库
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售