学而思九章大模型引领MathEval评测,展现卓越数学能力

论生活热事 2024-03-11 11:42:12

在当下大模型应用日益广泛的背景下,其在数学领域的应用,展现出了强大的潜力和价值。然而,行业内一直缺乏一个全面、客观的评测体系来评估各大模型的数学能力。近日,MathEval测评榜单的出炉,填补了这一空白,并引领大模型数学能力走向新的高度。

在MathEval的评测中,学而思旗下的九章大模型脱颖而出,展现了卓越的数学能力。这一成绩并非偶然,而是基于九章大模型在数学解题和讲题能力方面的专注和深度研发。九章大模型不仅具备强大的数学解题能力,还能够清晰、准确地讲解题目,帮助学生更好地理解和掌握数学知识。

MathEval这一创新性的大模型数学能力评测体系,由智慧教育国家新一代人工智能开放创新平台携手暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同打造,旨在全面、深入地评估大模型在数学领域的解题能力。该评测体系涵盖了19个数学领域的测评集和近30K道数学题目,从算术到小初高竞赛,再到部分高等数学分支,全方位、多层次地考察大模型在各个阶段、不同难度和数学子领域的表现。

过去,针对大模型数学能力的评测往往与其他能力评测混杂在一起,缺乏统一的标准,难以准确反映大模型在数学领域的真实水平。MathEval的推出,填补了这一行业空白,为大模型数学能力的深入研究和提升提供了有力的支持。

然而,对大模型进行数学能力测评并非易事。由于各数据集的字段需要统一,且每个大模型都有其独特的Prompt模板和答案形式,因此制定符合要求的抽取打分规则成为了一个巨大的挑战。这要求团队具备极高的专业能力,因为任何微小的抽取规则变动都可能对最终的测评结果产生显著影响。同时,为了确保测评榜单的参考性,还需要使用丰富的数据集对大模型进行全面评估,这对算力也提出了很高的要求。

MathEval团队在评测过程中展现出了卓越的创新精神。他们不仅完成了对30个大模型(包括同一模型的不同版本)的测试,还计划持续纳入新兴大模型,并定期更新榜单。此外,团队还巧妙地借助GPT4大模型进行答案抽取和匹配,有效降低了规则评测带来的误差。同时,他们根据每个模型的Prompt模板进行精准适配,充分激发了每个模型的潜能。

从MathEval公布的测评排行榜单来看,学而思旗下的九章大模型表现尤为突出,在总体表现以及中文、英文、各个学科分榜单中均名列前茅。这充分证明了九章大模型在数学解题和讲题能力方面的卓越实力,也体现了学而思在研发和应用大模型技术方面的领先地位。

未来,随着MathEval的不断完善和发展,相信它将为大模型数学能力的研究和应用提供更加全面、准确的参考依据,推动整个行业迈向新的高度。

0 阅读:3