千家信息网

百日会战,化蛹成碟!讯飞星火大模型被评为中国“最聪明”的大模型

发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,"从 5 月 6 日发布到今天,刚好是我们认知大模型 100 天的'百日会战'。"在 8 月 15 日的科大讯飞星火认知大模型 V2.0 发布会上,讯飞董事长刘庆峰说道。而在星火 V2.0 发布后,全
千家信息网最后更新 2024年11月11日百日会战,化蛹成碟!讯飞星火大模型被评为中国“最聪明”的大模型

"从 5 月 6 日发布到今天,刚好是我们认知大模型 100 天的'百日会战'。"在 8 月 15 日的科大讯飞星火认知大模型 V2.0 发布会上,讯飞董事长刘庆峰说道。而在星火 V2.0 发布后,全世界的目光再次聚焦到新一轮的大模型竞技潮来。

近日,《麻省理工科技评论》中国对讯飞星火、百度文心一言、商汤商量和阿里通义千问四款主流中国大模型进行了深度评测,结果显示讯飞星火以总分第一的成绩荣登榜首。

《麻省理工科技评论》是享誉世界的麻省理工学院全资拥有的媒体平台,在业界拥有很强的权威性,也被视为学术界的泰山北斗。此次它采用百分制计量,可参照 60% 得分率作为"及格线",除两款参测大模型刚过"及格线"外,百度文心一言获得 75.2% 得分率,而讯飞星火斩获 81.5% 最高分,四款大模型的平均得分率为 72.6%。可见,讯飞星火一己之力"拉高"的中国大模型的平均水平。

△ 四款大模型一级分类测试结果(部分)

根据《麻省理工科技评论》设计的 600 道题目,本次横评重点考察大模型语言、数学、理科、文科、逻辑、编程、综合知识和安全性共计 8 大类能力(一级分类),并涵盖 126 个二级分类和 290 个三级标签。通过拟人考试般的单选、多选、填空、简答四种题型,旨在评出"最聪明"的中国大模型。

作为中文语言大模型,《麻省理工科技评论》将语文专项测试放在了首测,题目是生成一份不同高校毕业大学生首份工作内容和薪资的调研问卷。结果商汤商量和通义千问都采取了"堆砌式"回答,只有讯飞星火与文心一言给出了思路清晰,条理顺畅的问卷结构,双方仅以 0.63% 得分率不分伯仲。

在随后的数学与逻辑思维等测试项中,讯飞星火开启了"狂飙模式"。《麻省理工科技评论》先采用了一道"求解不等式"的数学题,唯有讯飞给出了解题逻辑和正确答案,并以 77.54% 得分率远高于 56% 的平均值,大幅高出 21.75%。而在逻辑思维测试中,讯飞完美地解答了"池塘与水壶"的弯弯绕题目,展现了其在空间方位、演绎推理、逻辑谬误检测等方面的优势,并以 81.2% 得分率高出 72.6% 的平均值。

当测试来到了代码编程能力阶段,真正的好戏才刚刚开始。在 8 月 15 日,讯飞才对星火 V2.0 的代码能力进行了突破性提升,只因代码能力是支撑认知大模型"智慧涌现"的关键维度,代码能力与"聪明度"直接相关。《麻省理工科技评论》出具的题型是 -- 用 Python 生成以下代码:def assertBbs (num : int, pow:int):"""实现一个函数,快速幂计算"""。这对于不懂计算机编程的人来说,无异于有字天书,但对于四款大模型来说,它们的答案却各有不同。

直接看结果吧,讯飞星火不仅生成了正确代码,还给出了"这个函数需要实现快速幂计算,即计算 x 的 y 次方"的详细解析。最终讯飞星火以 80% 得分率明显高于 71% 的平均值,《麻省理工科技评论》用"表现颇为亮眼"来形容讯飞的代码能力。此外星火在综合知识测试中也以 80.61% 的得分率远高于 71.6% 平均率,这并不令人意外,因为综合知识测试涵盖了以上多项能力,在单项中只要获得领先,在综合测试中也不会有太大悬念。

△ 四款大模型综合得分率

最终《麻省理工科技评论》一锤定音,讯飞星火以 81.5 分的成绩在本次横评拔得头筹,成为"最聪明"的中国大模型,在综合实力上位列第一梯队。2023 年,随着中国人工智能研究在世界版图中占据愈发重要的地位,中国大模型的集体繁荣昭示着 AI 大航海时代的来临,以讯飞星火为代表的中国大模型佼佼者,正深入产业链上下游共创共建,已成为大模型时代照亮前路的"灯塔"。

0