新华社研究院发布国产大模型报告:讯飞星火总分第一
500 道题目、对标接受过高等教育的人类水平、更强调对产业和生活的实际价值,严格按基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行权重设计……8 月 12 日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告 2.0》(以下简称《报告》),讯飞星火以总分 1013 分位列本次国产主流大模型测评榜首位,在四大评测维度中的智商指数和工具提效指数两个维度获得第一,《报告》认为讯飞星火"在工作提效方面优势明显"。
《报告》认为,具有 7 大核心能力(即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力)的讯飞星火认知大模型拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。
面对国产大模型"涌现",讯飞星火认知大模型从立项到发布,再到迭代升级,每个节点都紧锣密鼓:5 月 6 日发布讯飞星火认知大模型及其在教育、办公、汽车、人机交互、医疗等领域的应用落地;6 月 9 日突破开放式问答并在数学能力上迭代升级;即将到来的 8 月 15 日会在代码能力上实现重大突破,并在多模态交互能力上升级;10 月 24 日对标 ChatGPT,实现中文超越、英文相当的水平。
在智商评估方面,《报告》认为,人类在智商方面仍然具有明显优势。课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对大模型进行考量,结果显示,讯飞星火排名第一。
代码能力无疑是讯飞星火"高智商"的底层能力,8 月 15 日讯飞星火代码能力也将进行重大升级,同时还将推出相关代码产品成果,值得期待。
在工作效率提升方面,《报告》认为,AI 对人类提供了有力的支持,AI 的处理速度远远超过人类。然而,尽管 AI 具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。课题组重点在工具提效(50%)和生成创新(50%)方面进行考量,结果显示,讯飞星火以 350 分排名第一并遥遥领先。
《报告》认为,与 2023 年 6 月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。虽然在不同领域中,AI 和人类表现出不同的优劣势,但在整体上,AI 大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售