联手谷歌,学而思发起全球大模型数学解题竞赛 探索人工智能数学推理无人区
数学一直被视为人工智能的试金石。当大语言模型突破其"先天性的缺陷"(如缺乏复杂推理能力、数值计算不够准确等),成功应对数学推理方面的挑战时,人工智能将进入新的纪元。如何提升大语言模型数学推理能力,突破语言模型的先天不足,成为当下全球人工智能领域关注的重点。
探索人工智能数学推理无人区
日前,由学而思牵头,联合谷歌、暨南大学等多家知名科技企业及高校的专家学者,依托智慧教育国家新一代人工智能开放创新平台,共同举办的 AAAI2024 全球大模型数学推理竞赛,邀请全球人工智能专家、开发者以及爱好者一起用大模型自动解答中小学数学难题,旨在探索、解决人工智能在数学领域的挑战。
AAAI(Association for the Advancement of Artificial Intelligence)由计算机科学和人工智能科学家 Allen Newell、Marvin Minsky 和 John McCarthy 等创办,是国际人工智能领域最为权威与重要的协会之一,AAAI 会议被中国计算机学会(CCF)推荐为 A 类会议。
比赛期间,参赛者需使用大模型对给定的数学题目,生成推理步骤与答案。主办方将通过对比参赛者的模型输出答案与正确答案之间的准确率,来为参赛者进行排名。准确率最高的参赛者将会赢得此次比赛。
为了更充分地探究各类大模型的数学推理能力,此次比赛分为中文数学解题和英文数学解题两个赛道。由学而思提供比赛所用的中英文数据集 --TAL-SAQ7K-CN、TAL-SAQ6K-EN。该数据集囊括了国内外多个中小学数学竞赛真题,题目格式均经过精心处理,每道题目都包含题目内容,题目难度等级和题目涉及到的从粗粒度到细粒度的知识点链条等字段。与之同时,TAL-SAQ7K-CN、TAL-SAQ6K-EN 数据集中涉及到数学表达式已经处理成统一的文本模式 Latex。
比赛分为两个阶段,第一阶段即日起截止到 12 月 31 日,为公榜阶段。主办方事先随机在 TAL-SAQ7K-CN 和 TAL-SAQ6K-EN 中选出 30% 的数据,供参赛者进行大模型调试。第二阶段则从 2024 年 1 月 1 日到 1 月 10 日,为私榜阶段。期间,参赛者使用第一阶段调优过的大模型来解答数据集中剩余的 70% 题目。这一阶段的成绩将会作为比赛的最终成绩。
此外,主办方还为此次比赛提供了 3 个测评基准作为参考,即 GPT-3.5,GPT-4 以及好未来自研的数学大模型 MathGPT 在公榜上的表现,具体结果如下:
Track1:
Track2:
做好 AI 大模型时代的数学基础工作
大模型一直是近来年人工智能发展最热门的领域之一,ChatGPT 的横空出世则让更多人看到了人工智能未来的方向。然而,现有的大语言模型在数学问题的解决、讲解、问答和推荐方面则存在明显不足,如解答数学问题经常出错,难以进行复杂运算。
作为本次全球大模型数学竞赛的发起者,学而思方面表示,希望能够通过这次大模型数学比赛,探索、解决现有的模型擅长文科而不擅长理科方面的推理和计算这一不足。学而思也在积极探索解决,如学而思 MathGPT(官网链接:https://www.mathgpt.com/)结合大模型和计算引擎两者能力解决大模型在数学领域的三大挑战 -- 解对题、讲清步骤、内容有趣生动。前者负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以此来提高正确率。基于海量名师解题过程的数据进行模型训练,模型的解题步骤可以更加清晰。再引入优秀老师的教学理念和方法,模型在解题趣味性上也能进一步提高。
以一道数列题为例,MathGPT 给出的答案包含"分析"、"详解"、"点睛"三个部分,比通用大模型的粗略讲解方式更为细致,"分析"提供了题目的解题思路、思考方式,帮助用户更好地理解题目,"详解"则给出具体的计算方式和答案,最后"点睛"的环节,对题目的考点、难点、关键点进行提示,帮助用户回顾反思出题意图、举一反三。
作为国内首个数学领域千亿级大模型,MathGPT 数学计算能力已覆盖小学、初中、高中阶段,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问。相关技术报告显示,在 CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和 Math401 等 6 个公开数学评测集合的测试结果中,学而思 MathGPT 取得了多项测试的最高分数;在 C-Eval 的初高中的全科测试集合上,MathGPT 也均有不错的表现。
此外,学而思也在 GitHub、Hugging Face 等技术社区开源了 MathGPT 的模型训练测试数据集 --TAL-SCQ5K-EN / CN (各 3K 训练集和 2K 测试集),题目为单选形式,涉及小初高阶段数学内容,带有详细的解析步骤便于进行 COT 的训练。
作为智慧教育国家新一代人工智能开放创新平台承建单位,学而思一直积极参与推动我国人工智能技术发展与进步。随着大模型时代的到来,学而思希望用自身在数学和 AI 上的多年积累,面向全球范围内的数学爱好者和科研机构,做好 AI 大模型时代的数学基础工作。
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售