国产大模型“书生·浦语”高考成绩超过ChatGPT语言|模型|浦语

发布时间:Apr 13, 2024 20:53 PM

随着人工智能大语言模型表现出接近人类的智能,高难度、综合性考试被越来越多地引入语言模型评测。OpenAI在GPT-4技术报告中,就通过各领域的考试对模型能力进行检验。今天是高考第一天,上海人工智能实验室、商汤科技联合香港中文大学、复旦大学及上海交通大学发布了千亿级参数大语言模型“书生·浦语”,它在中国高考等多项中文考试中取得的成绩超过ChatGPT。

“书生·浦语”有1040亿参数,在包含1.6万亿token的多语种高质量数据集上训练而成。全面评测显示,这个大模型不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,所以在综合性考试中表现突出,包括中国高考各科目的数据集。相关技术报告已在网上公开,对模型的技术特点和测试结果进行了详细阐述。

联合研发团队选取20余项评测对“书生·浦语”进行检验,其中有全球最具影响力的4个综合性考试评测集:由加州大学伯克利分校等高校构建的多任务考试评测集MMLU;微软研究院推出的学科考试评测集AGIEval;由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;由复旦大学研究团队构建的中国高考题目评测集Gaokao,包含各个科目以及选择、填空、问答等多种题型。


国产大模型“书生·浦语”高考成绩超过ChatGPT语言|模型|浦语

大模型在4个评测集的成绩对比

考试成绩显示,“书生·浦语”不仅大幅超越GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval和Gaokao等多个综合性考试中高于ChatGPT,在以美国考试为主的MMLU上与ChatGPT持平。其中,“书生·浦语”在超过75%的Gaokao测评项目中均领先ChatGPT。

大模型在Gaokao测评项目中的成绩对比


国产大模型“书生·浦语”高考成绩超过ChatGPT语言|模型|浦语

为了避免“偏科”,研究人员还通过多个学术评测集,对多个语言模型的分项能力进行了评测对比。结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,而且在数学推理、编程能力等评测中取得较好的成绩。研究人员还对大模型的安全性做了评测,在TruthfulQA以及CrowS-Pairs上,“书生·浦语”均达到领先水平。

大模型在分项能力上的评测对比

虽然在考试评测中取得优秀成绩,但大语言模型仍然存在不少能力局限性。据介绍,“书生·浦语”受限于2K的语境窗口长度,在长文理解、复杂推理、撰写代码和数理逻辑演绎等方面还存在明显局限。此外,在对话过程中,大语言模型普遍存在幻觉、概念混淆等问题。这些局限意味着,大语言模型在开放场景中的使用还有很多问题有待突破。


国产大模型“书生·浦语”高考成绩超过ChatGPT语言|模型|浦语
上海国际友好城市青少年“玩转”夏令营体验传统文化,做盘扣、学剪纸、包饺子国际|青少年|包饺子
上海国际友好城市青少年“玩转”夏令营体验传统文化,做盘扣、学剪纸、包饺子国际|青少年|包饺子

做盘扣、学剪纸、包饺子,走进夏令营志愿者家中,感受上海人家的生活气息……20日,2023上海国际友好城市青少年夏令营在上海市市东实验学校正式开营,来自12个国家13个城市73名营员汇聚上海,与上海同龄人共同开启一年一度的国际友城青少年交流盛会。小伙伴们一起开展中文和中国画、非遗、汉服、盘扣、剪纸、篆刻、书法、陶艺、茶艺、衍纸、舞龙等中华优秀传统文化课程学习、友城青年论坛交流、城市人文风貌考察、高校及场馆参访、城市定向挑战以及当地家庭生活体验等活动,绽放青春风采。除了丰富多彩的夏令营实体活动体验外,营员和志

本科阶段志愿填报今天启动!这些重要提醒和建议必读,@高考生阶段|本科|志愿
本科阶段志愿填报今天启动!这些重要提醒和建议必读,@高考生阶段|本科|志愿

@所有高考生,根据高招日程安排,7月1日—2日每日上午8:00—晚上8:00,7月3日上午8:00—12:00,考生填报本科阶段除综合评价批次外的其他批次志愿。本次志愿填报内容具体为零志愿批次、提前批次、艺体类甲批次、地方农村专项计划批次、特殊类型招生、普通批次。填报方式为:本市应届高中毕业生由学籍所在中学统一安排;非本市应届高中毕业生由报名所在区招办统一安排。要特别提醒考生的是,7月1日-3日志愿填报期间,由于综合评价批次录取尚未完成,因此填报过综合评价批次志愿的考生仍须认真填报本科阶段其他批次志愿

投资+服务推动抗癌药进临床|孵化器里的创业故事,上市公司老总二次创业生物|孵化器|临床|孵化器
投资+服务推动抗癌药进临床|孵化器里的创业故事,上市公司老总二次创业生物|孵化器|临床|孵化器

最近,经国家药品监督管理局批准,惠和生物研发的1类创新药CC312启动一期临床试验,用于治疗复发/难治性CD19阳性B细胞恶性血液肿瘤。这是国内第一款、全球第三款获批进入临床的基于CD28共刺激信号的三特异性抗体药物。说起这款三抗新药的研发往事,惠和生物创始人朱化星博士记忆犹新:“2019年前,全球还没有一款三抗药物获批进入临床,一些投资人看不懂CC312。在公司发展的关键时期,诺恺莘康基金投资3000万元,帮助我们完成了A轮融资。”诺恺莘康是莘泽创业孵化器发起的风投基金。这家在张江科学城深耕多年的孵化

“紫东太初”全模态大模型发布,精准定位三维场景,听出《月光曲》畅谈贝多芬图像|应用|贝多芬
“紫东太初”全模态大模型发布,精准定位三维场景,听出《月光曲》畅谈贝多芬图像|应用|贝多芬

不仅可以听出《月光曲》畅谈贝多芬,也可以在三维场景里实现精准定位,还能够通过图像与声音的结合完成场景分析。6月16日,在人工智能框架生态峰会上,中国科学院自动化研究所正式发布“紫东太初”全模态大模型。该模型是在千亿参数多模态大模型“紫东太初”1.0基础上升级打造的2.0版本,在语音、图像和文本三模态的基础上,加入视频、传感信号、3D点云等模态数据,突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力。会上,自动化所所长徐波首次对外实时展示了“紫东太初”全模态认知大模型在音乐理解与

坚持不懈就是人生一次历练,零陵中学肌无力考生完成高考:无论经历怎样的坎坷高中|学校|高考
坚持不懈就是人生一次历练,零陵中学肌无力考生完成高考:无论经历怎样的坎坷高中|学校|高考

“高考,是我们人生中的一次历练。回忆整个高三的备考,不禁感叹时间的宝贵,无论经历了怎样的坎坷,我相信只要坚持不懈,都将成为我一生的财富。”今天,零陵中学高三学生小宋完成了上午的高考外语听说测试后,从华东理工大学附属中学考点出来,这位坐在轮椅上的高三毕业生说:“虽然学业和生活对我而言,都是不小的考验,但身处逆境,面临诸多困难,从未放弃过对高考的梦想。”小宋自幼患有先天性肌营养不良,高中进入零陵中学后,学校为他提供了低楼层且靠近厕所的教室,方便进出,让他更自信地面对学习生活。“在学校,我遇见了许多善良、热情的