国产大模型总分、数学分数超过GPT-4o,“AI考生”高考成绩公布

发布时间:Jun 19, 2024 14:27 PM

上海人工智能实验室今天公布了多名“AI考生”参加今年中国高考的成绩，阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星成为三甲，得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好，但数学成绩不如人意。其中，“书生·浦语”2.0文曲星获得了数学最高分，超越包括GPT-4o在内的其他大模型。

今年高考结束后，司南评测体系OpenCompass选取6个开源大模型和GPT-4o，开展了语文、数学、英语全卷能力测试。评测采用全国新课标I卷，参与评测的开源模型的开源时间均早于高考，确保考试“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，接近真实阅卷的标准。

这6个大模型分别是阿里巴巴开源的Qwen2-57B和Qwen2-72B、上海人工智能实验室开源的“书生·浦语”2.0文曲星、智谱AI开源的GLM-4-9B、零一万物开源的Yi-1.5-34B、法国企业Mistral开源的Mixtral8x22B。由于无法确定闭源大模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，只引入GPT-4o作为评测参考。

因为受测的开源模型均为大语言模型，在评测过程中，仅输入文字题干，英语听力部分不纳入此次评测。

结果，阿里Qwen2-72B以总分303分排名第一，其中语文124分，数学70分，英语109分；GPT-4o以总分296分位居第二，其中语文111.5分，数学73分，英语111.5分；“书生·浦语”2.0文曲星以0.5分之差排名第三，其中语文112分，数学75分，英语108.5分。

可以看到，“AI考生”三甲都擅长文科，语文和英语成绩优良，然而它们的数学推理能力有待提升，高考数学成绩都不及格。目前，数学是所有大模型的短板，得益于上海人工智能实验室在数学推理上的投入，“书生·浦语”2.0文曲星在高考中得到75分，在所有受测模型中位居榜首，但仍存在较大的提升空间。

与以往多采用高考客观题评测大模型的方式不同，在此次测试中，研究团队使用了语数外三科的全卷试题，既有选择、填空等“答案唯一性”题目，也包括简答、阅读理解、作文等主观题，在更接近真实高考的环境中测试模型能力。

为贴近高考评卷模式，研究团队邀请多位有阅卷经验的高中教师对主观题答案评分，每份考卷至少由3人分别打分。遇到评分悬殊的情况，老师们会进行复核，尽量做到评分公正，为人工智能学术界和产业界提供更有价值的参考指标。

与真实的高考一样，所有大模型答卷均进行了匿名处理，避免阅卷教师产生“先入为主”的观念。在完成所有大模型答卷的评分工作后，阅卷教师才被告知所评“考生”的真实身份是大模型。

对于这些“AI考生”的语数外水平，老师们给出了中肯的评价——

语文评卷显示，大模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题，虽然有针对性，但缺乏修饰，几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”，大模型还无法完全理解。

7个大模型的语文各题型得分情况

数学评卷显示，大模型的主观题回答相对凌乱，而且解题过程有迷惑性，甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强，但无法在解题过程中灵活运用。

7个大模型的数学各题型得分情况

大模型的英语整体表现良好，然而部分模型由于不适应一些题型，在七选五、完形填空等题型上得分较低。大模型写的英语作文普遍存在因超出字数限制被扣分的情况，而人类考生大多因为字数不够被扣分。

7个大模型的英语各题型得分情况

世界顶尖科学家协会推出诺奖得主领衔的专业学术论坛,打造中国版“戈登会议”国际|会议|协会

解放日报·上观新闻记者从世界顶尖科学家协会获悉，顶科协上海中心将对标国际知名学术会议“戈登会议”，计划连年主办聚焦不同科学领域前沿进展的系列国际专业学术论坛。会议将由世界顶尖科学家担任会议主席和分会主席，采用邀请制邀请权威学术带头人和优秀青年学者作学术报告，面向学术群体开放注册，并设学术海报交流和颁奖环节，以期搭建开放、包容、激发灵感、分享前沿科学发现及创新技术为主的国际交流平台。首场学术论坛将于7月27日至28日在上海科学会堂举行，会议聚焦世界顶尖科学家国际联合实验室重点研究方向“细胞与基因”，由顶科协

助力城市运营管理数字化人才培育,这一市域产教联合体成立园区|产业|联合体

7月13日，漕河泾新兴技术开发区市域产教联合体正式成立，这是上海成立的14个市域产教联合体之一。市域产教联合体坚持以教促产、以产助教，深化产教融合、产学合作，充分发挥政府统筹、产业聚合、企业牵引、学校主体作用，以产业园区为基础，是致力于打造一批兼具人才培养、创新创业、促进产业经济高质量发展功能的联合体。上海市市域产教联合体拟立项名单。漕河泾新兴技术开发区市域产教联合体由上海城建职业学院联合上海临港漕河泾人才有限公司、相关院校和行业企业成立。这一联合体以漕河泾开发区为实践基地，成员涵盖元宇宙产业园、智能

为量子计算走向实用奠定基础,中国科学家刷新量子系统真纠缠比特数目世界纪录比特|计算|量子

近日，中国科学技术大学中国科学院量子信息与量子科技创新研究院潘建伟、朱晓波、彭承志等组成的研究团队与北京大学袁骁合作，成功实现了51个超导量子比特簇态制备和验证，刷新了所有量子系统中真纠缠比特数目的世界纪录，并首次演示了基于测量的变分量子算法。该工作将量子系统中真纠缠比特的数目由原先的24个大幅突破至51个，充分展示了超导量子计算体系优异的可扩展性，对于研究多体量子纠缠、实现大规模量子算法以及基于测量的量子计算等具有重要意义。相关研究成果于7月12日在线发表于国际学术期刊《自然》。量子纠缠是量子力学中最神

业界名企现场发布百余招聘岗,273支战队“白客”“黑客”对决网络安全大赛信息安全|大赛|业界

“我找到漏洞了！我来写脚本，可以尝试攻一下！”“你负责查杀一下他们的木马，做好防御！”在竞争最为激烈的网络攻防赛现场，醒目的电子大屏上即时显示着各支战队的攻防情况，象征着“网络攻击”的电子光束不断交替出现，令人眼花缭乱。日前，第八届上海市大学生网络安全大赛暨“磐石行动”2023大学生网络安全邀请赛决赛在东华大学延安路校区上演没有硝烟的攻防战。赛事由上海市教委和市通信管理局联合主办、东华大学和上海市互联网协会承办，共有来自全国136所高校的273支战队参赛。解放日报·上观新闻记者了解到，大赛设网络攻防赛和

为何用西汉著名将领卫青来命名这一基因研究所|基因|将领

中国科学院遗传与发育生物学研究所陈宇航和周俭民合作团队，日前克隆了一种广谱抗根肿病基因，并借用我国西汉著名将领卫青的名字为该基因命名，相关研究成果于北京时间6月8日发表于国际学术期刊《细胞》。根肿病是油菜等十字花科作物农业生产中最大的病害。根肿菌在土壤中可存活二十年，耕地一旦被污染，将不再适合种植十字花科作物。近年来，根肿病在我国呈快速蔓延趋势，其发生面积约占全国十字花科作物种植面积的30%。受根肿病侵害的油菜根部肿大症状。四川农业大学杨辉供图研究团队分离鉴定到了高抗根肿病基因WTS并阐明了其作用机制

要闻

中央军委政治工作会议在延安召开习近平出席会议并发表重要讲话第1视点丨在孩子们心田种下团结进步的种子是我的新家”,时政镜距离丨“这看东西部协作这项大战略,一见·从一所学校中央军委政治工作会议在延安召开习近平出席会议并发表重要讲话时政微视频丨瞰青海

政情

围绕这些领域开展合作,中国人保、中国信保、中国人寿国寿投资与上海市签约陈吉宁王江潘功胜李云泽吴清龚正出席,2024陆家嘴论坛在沪开幕辞去副省长职务！这省同日迎来两位副省长,他回京任职向一流国际金融中心更高目标迈进,上海国际金融中心专家咨询委员会议召开上海正打造全球领先新能源汽车发展高地,龚正市长会见德国大陆集团首席执行官不断做优主业、做强品牌、做大市场！陈吉宁调研得物、纬景储能

经济

老外在陆家嘴论坛上这样说,"对绿色金融最有热情的地方就是上海"对资本市场有何借鉴？,英伟达登顶全球市值最高上市企业释放这些信号和利好,中国金融监管一把手在上海集体发声市民感觉高峰期打车变难了？需求上涨50%,上海正式入梅农作物生长会受影响吗？,降水频率和强度增加,上海官宣入梅将大力支持企业境外上市备案,方星海回应一级市场争议问题

区情

设直播平台、家政服务、农业季节性用工等招聘专区,长三角零工市场在金山启动为建设者提供公益观影,虹口区新时代文明实践中心打造“光影会客厅”松江财政兜牢“三保”底线,把钱花在“刀刃“上要紧处探索商圈党建,建立自治联盟,松江新浜以党建为引领百年武夷路迎来新地标,翡悦里近10家首店旗舰店同步亮相上海这场古代科技文物展放大招了,竟然能亲手触摸商代的文物

观点

如何加强防洪防灾韧性体系建设？,习近平总书记作出重要指示！全面进入主汛期非要以“破格录取”收尾吗？,中专生痴迷数学的故事人民共创的节日,上影节可建立“三个特区”,上海社科院发布重大科研成果：打造国家战略科技力量不能为难老百姓,网上办事用什么来呵护“非要实现不可的梦想”,17岁中专生展现数学天赋

视觉

在场｜文物抢先看！埃及法老雕像、彩绘人形棺亮相上博埃赫纳吞巨像和彩绘人形棺露真容,【开箱揭秘】788件古埃及文物包机抵沪超级环线高铁今晨首发,从上海到上海 C919产线上见证青年红色筑梦之旅七宝茶馆书场……文化遗产日来一场城市考古游,蟋蟀草堂,七号桥碉堡这次大师带00后徒弟进社区秀手法,10年前学这门技艺的年轻人凤毛麟角