微软推出 “从错误中学习” 模型训练法,号称可“模仿人类学习过程,改善 AI 推理能力”
发表于:2025-02-11 作者:千家信息网编辑
千家信息网最后更新 2025年02月11日,CTOnews.com 11 月 7 日消息,微软亚洲研究院联合北京大学、西安交通大学等高校,提出了一项名为"从错误中学习(Learning from Mistake,LeMA)"的 AI 训练方法,
千家信息网最后更新 2025年02月11日微软推出 “从错误中学习” 模型训练法,号称可“模仿人类学习过程,改善 AI 推理能力”▲ 图源 相关论文
CTOnews.com 11 月 7 日消息,微软亚洲研究院联合北京大学、西安交通大学等高校,提出了一项名为"从错误中学习(Learning from Mistake,LeMA)"的 AI 训练方法,号称可以通过模仿人类学习知识的过程,来改进 AI 推理能力。
当下 OpenAI GPT-4 和谷歌 aLM-2 等大语言模型在自然语言处理(NLP)任务,及思维链(chain-of-thought,CoT)推理的数学难题任务中都有不错的表现。
但例如 LLaMA-2 及 Baichuan-2 等开源大模型,在处理相关问题时则有待加强。为了提升开源这些大语言模型的思维链推理能力,研究团队提出了 LeMA 方法。这种方法主要是模仿人类的学习过程,通过"从错误中学习",以改进模型的推理能力。
CTOnews.com发现,研究人员的方法是使用一对包含"错误解答"与"修正后正确答案"的数据来微调相关模型。为取得相关数据,研究人员收集了 5 个不同大语言模型(包括 LLaMA 及 GPT 系列)的错误答案和推理过程,再以 GPT-4 作为"订正者",提供修正后的正确答案。
据悉,修正后的正确答案中包含三类信息,分别是原推理过程中错误片段、原推理过程出错的原因、以及如何修正原方法以获得正确答案。
研究人员采用 GSM8K 及 MATH,来测试 LeMa 训练法对 5 个开源大模型的效果,结果显示,以改进过的 LLaMA-2-70B 为例,在 GSM8K 的准确率分别为 83.5% 及 81.4%,在 MATH 则分别为 25.0% 及 23.6%。
目前研究人员已将 LeMA 的相关资料公开在 GitHub 上,感兴趣的小伙伴们可以点此跳转。
模型
推理
研究
过程
错误
方法
答案
人员
研究人员
语言
能力
中学
人类
训练
任务
大学
思维
数据
别为
处理
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
tcp服务器压力测试工具
软件开发需要保密吗
软件开发怎么进国企
西城区智能网络技术诚信合作
软件开发用什么测试
企业网络安全问题开题报告
wmi数据库
蚌埠社交软件开发
2k19数据库
烈焰网络技术
网络安全事件发生的危险
惠普服务器开机转一下
网络安全公司的认证有哪些
临沧服务器上门回收价格
软件开发工程师供求分析
网络安全风险评估算法
用友服务器管理
新手学电脑网络安全
杭电吴挺网络安全
计算机网络技术能考二建
软件开发企业有何税收优惠
女性网络安全警察待遇怎么样
石家庄专业软件开发服务商
网络安全大学生范文
新乡市出彩网络技术有限公司
青岛物业管理软件开发
平板word显示服务器不可用
爱奇艺更换上行服务器
磴口计算机软件开发
惠普服务器前面亮黄灯
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售