5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

发布时间:Apr 16, 2024 07:08 AM

近日,包括百度、百川智能等8家国产大模型通过首批备案“持证上岗”。用户可在对应平台上申请账号,与AI智能对话。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

那么,这些大模型是否真的无所不知?真的能帮助用户解决问题?还是一个放大版的Siri呢?


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

记者选取了其中五款模型,包括豆包、通义千问、讯飞星火、文心一言、智谱清言,从搜索能力、上下文理解能力、情感分析力、编程能力四个方面来考察,出了一张20道原创考题的“试卷”,看看哪款模型最好用。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

谁能代替搜索引擎?


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

信息搜索是普通用户最有可能使用大模型的场景,那么,它们真的可靠吗?


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

从结果来看,豆包的信息搜索能力较强,其余大模型存在信息过旧、信息错误、无结果的问题,远无法代替搜索引擎。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

记者询问的是“请告诉我《解放日报》的地址”。只有豆包准确地说出正确答案,而文心一言、智谱清言或许是数据库并未更新,提供的地址均为旧址,读者按照这个地址可找不到报社。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

讯飞星火和通义千问更是离谱。讯飞星火捏造了一个错误的地址;而通义千问则建议记者在搜索引擎搜索,或是去官网寻找,可谓是“问了也白问”。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

豆包的信息最为准确。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

如果是涉及法律、经济等专业知识,大模型的表现会更好吗?


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

记者询问了第二个问题,“从法律的角度分析,妈妈和女朋友同时掉进水里,你会救谁?”


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

这一问题虽是坊间常见的谈资,但题目限定在法律角度下,因此考验大模型对法律法规的理解。这种极端的情况下一般没有标准答案,通常认为,子女对直系亲属有救助义务,但恋人并非直系亲属。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

从结果来看,豆包与讯飞星火较为可靠,逻辑清晰且无明显漏洞,似乎可以给男士们提供参考。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

通义千问没有注意到法律限定词,回答较为笼统,属于“正确的废话”;而文心一言的答案更妙,看似非常的专业,引用了刑法,但核查后会发现存在较多事实性错误,属于一本正经地瞎说。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

文心一言的回答有较多事实性错误。刑法第二百三十一条规定“单位犯本节第二百二十一条至第二百三十条规定之罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照本节各该条的规定处罚。”同时,回答中“无论你先救哪一个都可能被指控违法行为”有误。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

不仅仅是文心一言,通义千问也存在专业信息失实的问题。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

在询问“人民币的发行机构是什么?”后,通义千问虽说出正确答案,但引用的《中国人民银行法》也是错误的,第二十一条规定并非如它所说。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

看来法律知识依旧是大模型越不过去的坎啊。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

《中国人民银行法》第二十一条规定“残缺、污损的人民币,按照中国人民银行的规定兑换,并由中国人民银行负责收回、销毁”。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

谁能和你顺畅聊天?


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

对话是大模型产品与用户联系最紧密的功能之一,能听懂、答得上、会接梗都是大模型的“必修课”,国产大模型在这堂课上能打几分?


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

“上周他去了医院”“这周他回到了工作岗位”,说出这两句话,大模型能猜出这两周发生了什么事情吗?虽然两句话缺少直接的因果关系,但这五个大模型几乎都能答得出——“他”可能生病了,去医院看病康复了之后,这周开始重新上班。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

不过,文心一言的回答似乎更加全面,将可能性分成了三部分:其一是生病或受伤,经过治疗康复后重返岗位;其二是与慢性疾病有关,只是去医院做了检查或手术;其三是没有生病,去医院只是进行体检或打疫苗而已。由此可看出,文心一言用了“穷尽式”的方法,虽然回复比较啰嗦,但更为精确。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

紧接着,记者再问一句“那他上周为什么不来上班”,为了考察大模型是否能联系上下文理解。令人吃惊的是,豆包、讯飞星火、通义千问、智谱清言都能答得出“上周去医院”,只有文心一言完全忘记了上轮对话,“无法确定上周为什么没来上班”,再次“穷尽式”回答出缺席上班的原因。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

在情感分析方面,记者通过文本分析、情感强度对比,以及用西班牙语等方式表达情感,结果证明五个大模型都是“情感大师”,对记者说话时的“微情感”把握非常准确。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

为了更好测试日常对话中的非常规对话的理解,记者讲了“网络冷笑话”——林黛玉为何倒拔垂杨柳,结果难倒了一批大模型:豆包判断出林黛玉和倒拔垂杨柳出自不同的典故,解释了两者的原始出处,并指出两者毫无关联,但没有找出这句话背后的“网梗”,而通义千问和智谱清言敏锐地发现了“网梗”,还将原文出处和网友们的联想全部展现出来。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

也就是说,多数大模型在应付日常交流对话已经基本没多大问题,但要学会幽默“接梗”还为时尚早。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

谁能帮你写代码?


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

在ChatGPT发布后,部分程序员就曾感慨“要失业了”,因为大模型在编程、找漏洞方面有一定优势。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

那么,在上述五款国产大模型中,谁的编程能力更佳呢?谁又能教你写代码呢?


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

记者从基本算术运算、条件语句、IF循环、函数和数据结构五个方面入手,以编程初学者的身份来试试大模型。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

从编程能力上来看,五款大模型并无较大区别,代码正确且能运行,不存在前文中遇到的“瞎编法律条文”的情况。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

如果硬是要挑一些问题的话,星火的代码简洁性欠佳。因为即使是最简单的加法,星火都套用了def函数,而其余模型皆为直接运算。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

星火在计算简单的加法。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

但并不是每一款大模型都适合当编程老师。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

从代码的可读性上来看,文心一言比较适合初学者学习编程。因为它不仅在代码中插入了#号说明,标示出每一步的含义,同时在文末附上文字总结,以帮助用户理解代码的逻辑。更贴心的是,文心一言还点明注意事项,例如在询问判断数字正负的问题中,它提醒编码者注意用户输入的信息,建议添加错误处理代码的语句。对于初学者而言,十分友好。


5款主流国产大模型PK:谁最好用?谁更懂你?我们帮你试了试

相较之下,星火的可读性最弱,说明性文字较少,编程小白容易看不懂。


“强身健体”折射哪些新理念,上海卢浦大桥史上首次结构性维修“悄悄”完成卢浦大桥|大桥|理念
“强身健体”折射哪些新理念,上海卢浦大桥史上首次结构性维修“悄悄”完成卢浦大桥|大桥|理念

上海黄浦江上第六座大桥、有“世界第一拱”之称的卢浦大桥,日前完成建桥以来的首次结构维修。从2015年以来,上海城市桥梁进入保养高峰期,多座标志性桥梁进行了维护改造,包括浙江路桥、南浦大桥、杨浦大桥、松浦大桥等。比它们更年轻的卢浦大桥,为何早早开始“强身健体”?解放日报·上观新闻记者了解到,在这次维护之后卢浦大桥还要考虑“升级”,折射城市市政设施运营新理念。祛除病害可再维持多久?6月28日,是卢浦大桥通车运营20周年纪念日。刚满20岁的年轻桥梁,为何早早开始了维修工程?“卢浦大桥主体结构的设计年限是1

日均出动道路保洁人员2.5万余人次,端午假期公园接待游客155万人次林地|设施|人员
日均出动道路保洁人员2.5万余人次,端午假期公园接待游客155万人次林地|设施|人员

端午小长假受雨水天气影响,上海公园游客接待量较往年同期有所减少。上海市绿化市容局今天公布数据,端午小长假上海公园共接待游客155.36万人次。假期恰逢强降水,上海绿化市容行业坚持“安全第一,常备不懈,预防为主,全力抢险”,积极应对强降水和雷雨大风天气等状况,3天内安排一线作业人员提前到岗,日均出动道路保洁人员2.5万余人次,对公交枢纽、景观区域、地铁站出入口、大型商圈等重点区域开展快速清扫保洁,及时清除排水口周边的垃圾和落叶,保障市民出行。上海绿化林业部门提早绑扶新种林木,清理沟渠内枯枝落叶,疏通林地排

徐家汇夜生活节消费场景持续上新,越夜越精彩本土|消费|徐家汇
徐家汇夜生活节消费场景持续上新,越夜越精彩本土|消费|徐家汇

“夜间经济”是城市活力的风向标,作为国家级夜间文化和旅游消费集聚区之一,自2023上海夜生活节启幕以来,“体育+”“本土+”“潮流+”,徐家汇夜生活节消费场景持续上新,为广大市民和游客带来“越夜越精彩”的全新消费体验。作为首批上海市体育产业集聚区,“2023徐汇区体育消费嘉年华活动”已于6月9日—11日在徐家汇商圈开启。此次为期3天的嘉年华中,30多家著名体育品牌、上海市体育头部企业和特色体育机构入围活动。此外,上海自由搏击业余公开赛、中国坐标上海徐汇定向户外挑战赛、徐汇区篮球季决赛、一镖掷胜飞镖挑战赛等

欧洲游价格大涨怎么玩?“花更少钱玩更多地方”依然可以做到世界|欧洲|欧洲游
欧洲游价格大涨怎么玩?“花更少钱玩更多地方”依然可以做到世界|欧洲|欧洲游

三年疫情后国门重开,外面的世界已发生诸多变化。对中国旅行者来说,遍及全球多国的通货膨胀和欧洲能源危机,令欧洲游成本大幅上升。面对这样的新形势,今天在上海地铁静安寺站漫选商业街拉开帷幕的“2023欧洲旅行嘉年华”上,旅游从业者提出了“Travelmoreforless”的理念,力争为偏爱特色线路的游客提供更多定制化的旅行线路。此次欧洲旅行嘉年华活动是第四届”五五购物节“活动,也是“上海进口嗨购节“的重要活动之一。来自瑞士、英国、克罗地亚、波兰、挪威、丹麦、英国、德国汉堡、比利时法兰德斯、瑞典、葡萄牙等

陆家嘴论坛靠什么让世界瞩目,15年来经济|金融|论坛
陆家嘴论坛靠什么让世界瞩目,15年来经济|金融|论坛

明天,第十四届陆家嘴论坛将在上海开幕。开办15年来,这一金融领域的高端对话交流平台,已经成为上海的一张名片,也是中国金融走向世界的一张名片。一个有意思的巧合是,首届陆家嘴论坛起步于2008年,当时人们关注的是在金融危机影响下,全球经济何时能好转并复苏。而本届论坛大家更关心的,显然是在疫情之后,金融如何助力全球经济复苏。问题相似,答案却不尽相同。全球金融人士每一次来到陆家嘴论坛,都在为现实世界中的金融发展问题,寻找答案。15年来,一些答案已经逐渐清晰,一些答案仍在不断探寻。这也许就是陆家嘴论坛让世界瞩目