谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复
谷歌 Gemini 实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。
不会像谷歌官方发布会那样,用 CoT@32 对比 5-shot 了。
一句话结果:Gemini Pro 版本接近但略逊于 GPT-3.5 Turbo,GPT-4 还是遥遥领先。
在深入分析中还发现 Gemini 一些奇怪特性,比如选择题喜欢选 D……
不少研究者表示,太卷了,Gemini 刚发布没几天就搞出这么详细的测试。
六大任务深入测试
这项测试具体比较了 6 大任务,分别选用相应的数据集:
知识问答:MMLU
推理:BIG-Bench Hard
数学:GSM8k、SVAMP、ASDIV、MAWPS
代码:HumanEval、ODEX
翻译:FLORES
上网冲浪:WebArena
知识问答:喜欢选 D
从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。
MMLU 数据集里都是多选题,对结果进一步分析还发现奇怪现象:Gemini 更喜欢选 D。
GPT 系列在 4 个选项上的分布就要平衡很多,团队提出这可能是 Gemini 没针对多选题做大量指令微调造成的。
另外 Gemini 的安全过滤比较严重,涉及道德问题只回答了 85%,到了人类性行为相关问题只回答了 28%。
Gemini Pro 表现超过 GPT-3.5 的两个科目是安全研究和高中微观经济学,但差距也不大,团队表示分析不出来什么特别的。
推理:长问题不擅长
Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 系列对此更稳健。
GPT-4 Turbo 尤其如此,即使在较长的问题上也几乎没有性能下降,表明它具有理解复杂问题的强大能力。
如果按问题类型来分析,Gemini 特别不擅长"tracking_shuffled_objects"这类问题,也就人们交换物品,最后让 AI 判断谁拥有哪些物品。
Gemini 比较擅长的任务是,需要世界知识的体育运动理解、操作符号堆栈、按字母顺序排序单词,解析表格。
数学:复杂任务反超
这一次问题本身太长 Gemini Pro 和 GPT-3.5 表现就一起下降,只有 GPT-4 还能保持一贯水准。
但使用的思维链提示长度最长时,Gemini 反超 GPT-3.5。
代码:擅长 matplotlib
对于代码问题,Gemini 在参考答案长的问题上表现很差。
按调用的库来分类,GPT 系列在大多数类型更强,但 matplotlib 就完全不行。
翻译:只要回答了,质量就很高
翻译任务上,有 12 种类型 Gemini 拒绝回答,但是只要回答了的翻译质量都很高,整体表现超过 GPT-4。
Gemini 拒绝翻译的类型主要涉及拉丁语、阿拉伯语。
网络导航:擅长跨站点冲浪
WebArena 给 AI 模拟了一个互联网环境,包括电子商务、社交论坛、GitLab 协作开发、内容管理系统和在线地图等,需要 AI 查找信息或跨站点完成任务。
Gemini 在整体表现不如 GPT-3.5 Turbo,但在跨多个站点的任务中表现稍好。
网友:但是它免费啊
最后,CMU 副教授 Graham Neubig 承认了这项研究的一些局限性。
基于 API 的模型行为可能随时变化
只尝试了有限数量的提示,对不同模型来说适用的提示词可能不一样
无法控制测试集是否泄露
谷歌大模型推理团队负责人周登勇指出,对于推理任务把 Gemini 的温度设置为 0 可以提高 5-10 个百分点。
这项测试中除了 Gemini 与 GPT 系列,还搭上了最近很受关注的开源 MoE 模型 Mixtral。
不过强化学习专家 Noam Brown 认为可以忽略其中 Mixtral 的结果,因为用的是第三方 API 而非官方实现。
Mistral AI 创始人也来给团队提供了官方版调用权限,认为能得到一个更好的结果。
总得来,虽然 Gemini Pro 还是不如 GPT-3.5,但是它胜在每分钟调用不超过 60 次就免费。
所以还是有不少个人开发者已经转换了阵营。
目前 Gemini 最高版本 Ultra 版尚未发布,到时 CMU 团队也有意继续这项研究。你觉得 Gemini Ultra 能达到 GPT-4 水平么?
论文:
https://arxiv.org/abs/2312.11444
参考链接:
[1]https://twitter.com/gneubig/status/1737108977954251216
- 上一篇
生成式 AI 手机 2027 年预估出货 5.22 亿台:品牌中三星占比 50%,芯片中高通占比 80%
感谢CTOnews.com网友 软媒新友1933769 的线索投递!CTOnews.com 12 月 21 日消息,根据市场调查机构 Counterpoint Research 近日发布的《生成式 A
- 下一篇
iOS 18 泄露“天机”:苹果 iPhone 16 / Pro 手机全系配 t8140 新 SoC
CTOnews.com 12 月 21 日消息,苹果软件团队在发布 iOS 17 版本更新之后,开发的重心已经放在下个主要版本 iOS 18 上。按照苹果以往的发布规律,预估会在明年 6 月发布测试版
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售