导航：首页 > IT资讯 >

谷歌 Gemini Pro 实测不如 GPT-3.5，CMU 深入对比研究：保证公平透明可重复

发表于：2025-01-20 作者：千家信息网编辑

千家信息网最后更新 2025年01月20日，谷歌 Gemini 实力到底如何？卡耐基梅隆大学来了场专业客观第三方比较。为保证公平，所有模型使用相同的提示和生成参数，并且提供可重复的代码和完全透明的结果。不会像谷歌官方发布会那样，用 CoT@32

千家信息网最后更新 2025年01月20日谷歌 Gemini Pro 实测不如 GPT-3.5，CMU 深入对比研究：保证公平透明可重复

谷歌 Gemini 实力到底如何？卡耐基梅隆大学来了场专业客观第三方比较。为保证公平，所有模型使用相同的提示和生成参数，并且提供可重复的代码和完全透明的结果。

不会像谷歌官方发布会那样，用 CoT@32 对比 5-shot 了。

一句话结果：Gemini Pro 版本接近但略逊于 GPT-3.5 Turbo，GPT-4 还是遥遥领先。

在深入分析中还发现 Gemini 一些奇怪特性，比如选择题喜欢选 D……

不少研究者表示，太卷了，Gemini 刚发布没几天就搞出这么详细的测试。

六大任务深入测试

这项测试具体比较了 6 大任务，分别选用相应的数据集：

知识问答：MMLU
推理：BIG-Bench Hard
数学：GSM8k、SVAMP、ASDIV、MAWPS
代码：HumanEval、ODEX
翻译：FLORES
上网冲浪：WebArena

知识问答：喜欢选 D

从结果可以看出，使用思维链提示在这类任务上不一定能带来提升。

MMLU 数据集里都是多选题，对结果进一步分析还发现奇怪现象：Gemini 更喜欢选 D。

GPT 系列在 4 个选项上的分布就要平衡很多，团队提出这可能是 Gemini 没针对多选题做大量指令微调造成的。

另外 Gemini 的安全过滤比较严重，涉及道德问题只回答了 85%，到了人类性行为相关问题只回答了 28%。

Gemini Pro 表现超过 GPT-3.5 的两个科目是安全研究和高中微观经济学，但差距也不大，团队表示分析不出来什么特别的。

推理：长问题不擅长

Gemini Pro 在更长、更复杂的问题上表现不佳，而 GPT 系列对此更稳健。

GPT-4 Turbo 尤其如此，即使在较长的问题上也几乎没有性能下降，表明它具有理解复杂问题的强大能力。

如果按问题类型来分析，Gemini 特别不擅长"tracking_shuffled_objects"这类问题，也就人们交换物品，最后让 AI 判断谁拥有哪些物品。

Gemini 比较擅长的任务是，需要世界知识的体育运动理解、操作符号堆栈、按字母顺序排序单词，解析表格。

数学：复杂任务反超

这一次问题本身太长 Gemini Pro 和 GPT-3.5 表现就一起下降，只有 GPT-4 还能保持一贯水准。

但使用的思维链提示长度最长时，Gemini 反超 GPT-3.5。

代码：擅长 matplotlib

对于代码问题，Gemini 在参考答案长的问题上表现很差。

按调用的库来分类，GPT 系列在大多数类型更强，但 matplotlib 就完全不行。

翻译：只要回答了，质量就很高

翻译任务上，有 12 种类型 Gemini 拒绝回答，但是只要回答了的翻译质量都很高，整体表现超过 GPT-4。

Gemini 拒绝翻译的类型主要涉及拉丁语、阿拉伯语。

网络导航：擅长跨站点冲浪

WebArena 给 AI 模拟了一个互联网环境，包括电子商务、社交论坛、GitLab 协作开发、内容管理系统和在线地图等，需要 AI 查找信息或跨站点完成任务。

Gemini 在整体表现不如 GPT-3.5 Turbo，但在跨多个站点的任务中表现稍好。

网友：但是它免费啊

最后，CMU 副教授 Graham Neubig 承认了这项研究的一些局限性。

基于 API 的模型行为可能随时变化
只尝试了有限数量的提示，对不同模型来说适用的提示词可能不一样
无法控制测试集是否泄露

谷歌大模型推理团队负责人周登勇指出，对于推理任务把 Gemini 的温度设置为 0 可以提高 5-10 个百分点。

这项测试中除了 Gemini 与 GPT 系列，还搭上了最近很受关注的开源 MoE 模型 Mixtral。

不过强化学习专家 Noam Brown 认为可以忽略其中 Mixtral 的结果，因为用的是第三方 API 而非官方实现。

Mistral AI 创始人也来给团队提供了官方版调用权限，认为能得到一个更好的结果。

总得来，虽然 Gemini Pro 还是不如 GPT-3.5，但是它胜在每分钟调用不超过 60 次就免费。

所以还是有不少个人开发者已经转换了阵营。

目前 Gemini 最高版本 Ultra 版尚未发布，到时 CMU 团队也有意继续这项研究。你觉得 Gemini Ultra 能达到 GPT-4 水平么？

论文：

https://arxiv.org/abs/2312.11444
参考链接：
[1]https://twitter.com/gneubig/status/1737108977954251216

很赞哦！

问题任务结果团队模型提示测试研究代码类型分析推理复杂知识站点还是安全上表官方思维数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全软件开发高级工程师年薪多少长春学习软件开发工程汽车行业常用软件开发工具福州网络安全公安局正规软件开发价格实惠唐山php软件开发招聘 sql数据库二进制转换招商科技软件开发网络安全设备ppt图标戴尔580服务器状态灯如何服务器设置孝感索璞互联网科技有限公司学好软件开发信息网络安全管理员职责像素工厂服务器ip地址列表发票信息保存数据库失败最基础的网络安全工作 9 岁小孩学习网络安全监狱网络安全风险评估报告数据库文件的图标如何恢复删除数据库及其包含的表的命令是万德数据库能查什么上海网络安全审计系统咨询机构网络安全网络文明检查免费测试服务器 h5贷款超市软件开发服务器虚拟主机能玩游戏么网络安全费用占比要求网络安全小品剧本4人网络层网络安全协议有哪些

千家信息网