阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM
来源:今日头条 发表于2025-02-21 06:32:52 编辑:张易川
摘要: 1月17日消息,通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包括72B和7B两个版本,将提升大型语言模型(LLMs)在数学推理过程中的可靠性和

  1月17日消息,通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包括72B和7B两个版本,将提升大型语言模型(LLMs)在数学推理过程中的可靠性和可信度,自动识别推理过程中的错误,如计算或逻辑错误,这些错误可能导致不正确的结论,即使最终答案正确,也可能削弱模型推理过程的可信度。

  在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,团队还开源了首个步骤级的评估标准ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。

  据了解,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出的全新评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

投稿邮箱:qingjuedu@163.com
相关推荐
“全世界学历最高的Labubu来了”!清华副校长为其“拨
“全世界学历最高的Labubu来了”!清华副校长为其“拨

原标题:全世界学历最高的Labubu来了!清华副校长为其拨穗 6月23日上午,全世

快资讯2025-06-23 19:55:30

华中科技大学宣布获个人匿名捐赠 1.8 亿元人民币
华中科技大学宣布获个人匿名捐赠 1.8 亿元人民币

原标题:华中科技大学宣布获个人匿名捐赠 1.8 亿元人民币 6 月 21 日消息,今天

快资讯2025-06-22 10:21:49

延边大学食堂阿姨毕业典礼演讲全程脱稿听哭毕业生,
延边大学食堂阿姨毕业典礼演讲全程脱稿听哭毕业生,

原标题:延边大学食堂阿姨毕业典礼演讲全程脱稿听哭毕业生,当事人:我只是

快资讯2025-06-22 10:18:02

王皓考编,成绩公布,排名第一
王皓考编,成绩公布,排名第一

原标题:王皓考编,成绩公布,排名第一 据北京市体育局官网,北京市先农坛

快资讯2025-06-20 18:37:19

2026年两大权威世界大学排名公布,“清北之争”备受关
2026年两大权威世界大学排名公布,“清北之争”备受关

原标题:2026年两大权威世界大学排名公布,清北之争备受关注 6月19日,国际高

快资讯2025-06-19 13:57:39

深圳一小区房屋发生沉降!25栋楼被封控,邻近学校停
深圳一小区房屋发生沉降!25栋楼被封控,邻近学校停

原标题:深圳一小区房屋发生沉降!25栋楼被封控,邻近学校停课1天 6月16日 深

快资讯2025-06-18 14:06:41

江西瑞金一中学老师要求学生下跪写检讨?官方通报:
江西瑞金一中学老师要求学生下跪写检讨?官方通报:

原标题:江西瑞金一中学老师要求学生下跪写检讨?官方通报:存在体罚行为,

快资讯2025-06-16 20:01:29

又破世界纪录!18岁杭州学子实现射击世界杯三连冠
又破世界纪录!18岁杭州学子实现射击世界杯三连冠

原标题:又破世界纪录!18岁杭州学子实现射击世界杯三连冠 近日,在2025国际

快资讯2025-06-15 20:03:25

大学上新29种专业!来认识蓄势起飞的“未来科技显眼
大学上新29种专业!来认识蓄势起飞的“未来科技显眼

原标题:大学上新29种专业!来认识蓄势起飞的未来科技显眼包 2025年高考刚刚

快资讯2025-06-12 14:59:24

毕业季内蒙古多地景区送福利
毕业季内蒙古多地景区送福利

原标题:毕业季内蒙古多地景区送福利 记者6月10日从内蒙古文旅厅获悉,全区

快资讯2025-06-11 14:44:39