5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

发布时间:Apr 16, 2024 07:08 AM

近日，包括百度、百川智能等8家国产大模型通过首批备案“持证上岗”。用户可在对应平台上申请账号，与AI智能对话。

那么，这些大模型是否真的无所不知？真的能帮助用户解决问题？还是一个放大版的Siri呢？

记者选取了其中五款模型，包括豆包、通义千问、讯飞星火、文心一言、智谱清言，从搜索能力、上下文理解能力、情感分析力、编程能力四个方面来考察，出了一张20道原创考题的“试卷”，看看哪款模型最好用。

谁能代替搜索引擎？

信息搜索是普通用户最有可能使用大模型的场景，那么，它们真的可靠吗？

从结果来看，豆包的信息搜索能力较强，其余大模型存在信息过旧、信息错误、无结果的问题，远无法代替搜索引擎。

记者询问的是“请告诉我《解放日报》的地址”。只有豆包准确地说出正确答案，而文心一言、智谱清言或许是数据库并未更新，提供的地址均为旧址，读者按照这个地址可找不到报社。

讯飞星火和通义千问更是离谱。讯飞星火捏造了一个错误的地址；而通义千问则建议记者在搜索引擎搜索，或是去官网寻找，可谓是“问了也白问”。

豆包的信息最为准确。

如果是涉及法律、经济等专业知识，大模型的表现会更好吗？

记者询问了第二个问题，“从法律的角度分析，妈妈和女朋友同时掉进水里，你会救谁？”

这一问题虽是坊间常见的谈资，但题目限定在法律角度下，因此考验大模型对法律法规的理解。这种极端的情况下一般没有标准答案，通常认为，子女对直系亲属有救助义务，但恋人并非直系亲属。

从结果来看，豆包与讯飞星火较为可靠，逻辑清晰且无明显漏洞，似乎可以给男士们提供参考。

通义千问没有注意到法律限定词，回答较为笼统，属于“正确的废话”；而文心一言的答案更妙，看似非常的专业，引用了刑法，但核查后会发现存在较多事实性错误，属于一本正经地瞎说。

文心一言的回答有较多事实性错误。刑法第二百三十一条规定“单位犯本节第二百二十一条至第二百三十条规定之罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照本节各该条的规定处罚。”同时，回答中“无论你先救哪一个都可能被指控违法行为”有误。

不仅仅是文心一言，通义千问也存在专业信息失实的问题。

在询问“人民币的发行机构是什么？”后，通义千问虽说出正确答案，但引用的《中国人民银行法》也是错误的，第二十一条规定并非如它所说。

看来法律知识依旧是大模型越不过去的坎啊。

《中国人民银行法》第二十一条规定“残缺、污损的人民币，按照中国人民银行的规定兑换，并由中国人民银行负责收回、销毁”。

谁能和你顺畅聊天？

对话是大模型产品与用户联系最紧密的功能之一，能听懂、答得上、会接梗都是大模型的“必修课”，国产大模型在这堂课上能打几分？

“上周他去了医院”“这周他回到了工作岗位”，说出这两句话，大模型能猜出这两周发生了什么事情吗？虽然两句话缺少直接的因果关系，但这五个大模型几乎都能答得出——“他”可能生病了，去医院看病康复了之后，这周开始重新上班。

不过，文心一言的回答似乎更加全面，将可能性分成了三部分：其一是生病或受伤，经过治疗康复后重返岗位；其二是与慢性疾病有关，只是去医院做了检查或手术；其三是没有生病，去医院只是进行体检或打疫苗而已。由此可看出，文心一言用了“穷尽式”的方法，虽然回复比较啰嗦，但更为精确。

紧接着，记者再问一句“那他上周为什么不来上班”，为了考察大模型是否能联系上下文理解。令人吃惊的是，豆包、讯飞星火、通义千问、智谱清言都能答得出“上周去医院”，只有文心一言完全忘记了上轮对话，“无法确定上周为什么没来上班”，再次“穷尽式”回答出缺席上班的原因。

在情感分析方面，记者通过文本分析、情感强度对比，以及用西班牙语等方式表达情感，结果证明五个大模型都是“情感大师”，对记者说话时的“微情感”把握非常准确。

为了更好测试日常对话中的非常规对话的理解，记者讲了“网络冷笑话”——林黛玉为何倒拔垂杨柳，结果难倒了一批大模型：豆包判断出林黛玉和倒拔垂杨柳出自不同的典故，解释了两者的原始出处，并指出两者毫无关联，但没有找出这句话背后的“网梗”，而通义千问和智谱清言敏锐地发现了“网梗”，还将原文出处和网友们的联想全部展现出来。

也就是说，多数大模型在应付日常交流对话已经基本没多大问题，但要学会幽默“接梗”还为时尚早。

谁能帮你写代码？

在ChatGPT发布后，部分程序员就曾感慨“要失业了”，因为大模型在编程、找漏洞方面有一定优势。

那么，在上述五款国产大模型中，谁的编程能力更佳呢？谁又能教你写代码呢？

记者从基本算术运算、条件语句、IF循环、函数和数据结构五个方面入手，以编程初学者的身份来试试大模型。

从编程能力上来看，五款大模型并无较大区别，代码正确且能运行，不存在前文中遇到的“瞎编法律条文”的情况。

如果硬是要挑一些问题的话，星火的代码简洁性欠佳。因为即使是最简单的加法，星火都套用了def函数，而其余模型皆为直接运算。

星火在计算简单的加法。

但并不是每一款大模型都适合当编程老师。

从代码的可读性上来看，文心一言比较适合初学者学习编程。因为它不仅在代码中插入了#号说明，标示出每一步的含义，同时在文末附上文字总结，以帮助用户理解代码的逻辑。更贴心的是，文心一言还点明注意事项，例如在询问判断数字正负的问题中，它提醒编码者注意用户输入的信息，建议添加错误处理代码的语句。对于初学者而言，十分友好。

相较之下，星火的可读性最弱，说明性文字较少，编程小白容易看不懂。

“强身健体”折射哪些新理念,上海卢浦大桥史上首次结构性维修“悄悄”完成卢浦大桥|大桥|理念

上海黄浦江上第六座大桥、有“世界第一拱”之称的卢浦大桥，日前完成建桥以来的首次结构维修。从2015年以来，上海城市桥梁进入保养高峰期，多座标志性桥梁进行了维护改造，包括浙江路桥、南浦大桥、杨浦大桥、松浦大桥等。比它们更年轻的卢浦大桥，为何早早开始“强身健体”？解放日报·上观新闻记者了解到，在这次维护之后卢浦大桥还要考虑“升级”，折射城市市政设施运营新理念。祛除病害可再维持多久？6月28日，是卢浦大桥通车运营20周年纪念日。刚满20岁的年轻桥梁，为何早早开始了维修工程？“卢浦大桥主体结构的设计年限是1

日均出动道路保洁人员2.5万余人次,端午假期公园接待游客155万人次林地|设施|人员

端午小长假受雨水天气影响，上海公园游客接待量较往年同期有所减少。上海市绿化市容局今天公布数据，端午小长假上海公园共接待游客155.36万人次。假期恰逢强降水，上海绿化市容行业坚持“安全第一，常备不懈，预防为主，全力抢险”，积极应对强降水和雷雨大风天气等状况，3天内安排一线作业人员提前到岗，日均出动道路保洁人员2.5万余人次，对公交枢纽、景观区域、地铁站出入口、大型商圈等重点区域开展快速清扫保洁，及时清除排水口周边的垃圾和落叶，保障市民出行。上海绿化林业部门提早绑扶新种林木，清理沟渠内枯枝落叶，疏通林地排

徐家汇夜生活节消费场景持续上新,越夜越精彩本土|消费|徐家汇

“夜间经济”是城市活力的风向标，作为国家级夜间文化和旅游消费集聚区之一，自2023上海夜生活节启幕以来，“体育+”“本土+”“潮流+”，徐家汇夜生活节消费场景持续上新，为广大市民和游客带来“越夜越精彩”的全新消费体验。作为首批上海市体育产业集聚区，“2023徐汇区体育消费嘉年华活动”已于6月9日—11日在徐家汇商圈开启。此次为期3天的嘉年华中，30多家著名体育品牌、上海市体育头部企业和特色体育机构入围活动。此外，上海自由搏击业余公开赛、中国坐标上海徐汇定向户外挑战赛、徐汇区篮球季决赛、一镖掷胜飞镖挑战赛等

欧洲游价格大涨怎么玩？“花更少钱玩更多地方”依然可以做到世界|欧洲|欧洲游

三年疫情后国门重开，外面的世界已发生诸多变化。对中国旅行者来说，遍及全球多国的通货膨胀和欧洲能源危机，令欧洲游成本大幅上升。面对这样的新形势，今天在上海地铁静安寺站漫选商业街拉开帷幕的“2023欧洲旅行嘉年华”上，旅游从业者提出了“Travelmoreforless”的理念，力争为偏爱特色线路的游客提供更多定制化的旅行线路。此次欧洲旅行嘉年华活动是第四届”五五购物节“活动，也是“上海进口嗨购节“的重要活动之一。来自瑞士、英国、克罗地亚、波兰、挪威、丹麦、英国、德国汉堡、比利时法兰德斯、瑞典、葡萄牙等

陆家嘴论坛靠什么让世界瞩目,15年来经济|金融|论坛

明天，第十四届陆家嘴论坛将在上海开幕。开办15年来，这一金融领域的高端对话交流平台，已经成为上海的一张名片，也是中国金融走向世界的一张名片。一个有意思的巧合是，首届陆家嘴论坛起步于2008年，当时人们关注的是在金融危机影响下，全球经济何时能好转并复苏。而本届论坛大家更关心的，显然是在疫情之后，金融如何助力全球经济复苏。问题相似，答案却不尽相同。全球金融人士每一次来到陆家嘴论坛，都在为现实世界中的金融发展问题，寻找答案。15年来，一些答案已经逐渐清晰，一些答案仍在不断探寻。这也许就是陆家嘴论坛让世界瞩目

要闻

政情

市人大执法检查组明察暗访还有哪些堵点,这项工作评估上海始终名列前茅垃圾分类|垃圾|执法期待全球高素质工程企业布局上海,龚正市长会见世界工程组织联合会候任主席联合会|全球|素质共商深化对口支援合作交流大计,陈吉宁与聂壮所率新疆喀什地区党政代表团座谈工作|新疆|代表团陈吉宁龚正一同考察并座谈,共同服务国家发展大局！尹力殷勇率北京团在沪考察代表团|发展|大局贡献了上海市约1/4的GDP,目前在沪外资企业数量7万家,市外青协换届互相帮助|会员|GDP 杨浦这个街道代表小组助力解民忧,垃圾带变回绿化带、路灯又亮起来居民区|代表|杨浦

经济

种菜还能靠什么？,一群青年人的农业实验：不靠天不靠地生菜|体力|农业被“一口回绝”的极少……,上海汽车主机厂拿出49款车规级芯片征求国产替代上汽|荷兰|美国|临港浦江国际科技城|替代|进口|国产化|车规级芯片国产区块链还有“花头”吗？,不搞比特币,首个区块链技术国标发布Web3.0|区块链|国产国际国内这些头部饮品冷饮品牌“卷”成这样了,为迎接消费市场的整体回暖品牌|糖茶|国际螺蛳壳里做道场让城市边角料逆袭,上海这座欧式园林以前竟是马路“结石”上海口袋公园|雀小脏全|螺蛳壳里做道场长三角23家行业协（商、学）会成立联盟展开贸易调整援助,外贸形势复杂严峻调整|贸易|联盟

区情

上海市慈善基金会成功开具第一张电子捐赠票据社区|活动|上海市慈善基金会开展常态化社戏演出活动,“戏剧之乡”松江新浜将恢复戏台社戏|戏剧|松江新浜如何推广和复制“近铁模式”？长风新村街道打造楼宇党建4.0版模式|楼委会|近铁将建上海单体规模最大近零能耗建筑,嘉定新城“嘉宝智慧湾”首发地块开工建筑面积|地块|首发静安打造“一公园一主题”,《绘生·着色》艺术展在静安雕塑公园开幕体验|艺术|静安首届碳博会徐汇展区亮点频现,废塑料再生环保路、上海首个近零碳社区低碳|绿色|社区

观点

“白碳”正在兴起,碳有很多种颜色？这绝不是哗众取宠二氧化碳|排放|颜色潮向何方：“国潮”文创市场现状、发展趋势与创新路径文创|国货|国潮他彰显了共产党人革命思想和精神品质的精髓,在短暂的40年人生中书记|俞秀松|思想 “四大功能”与“五个中心”是什么关系？准确把握这两个关键词要素|功能|关系为何要再提“光盘行动”？,今天生活|剩菜|光盘要找到数字化和绿色化的平衡点,专家：过多数字化可能增加能源消耗数字|绿色|数字化

视觉

庆祝美军撤军两周年,【看世界】阿富汗塔利班武装安全人员游行台风|塔利班|阿富汗今天线下买书展门票更方便了,身份证、现金、老式手机鲁迅|书展|手机这些空间为市民游客打造多重互动观赏体验,玩转周末美学|设计|市民开幕式照常进行,【看世界】女足世界杯揭幕战奥克兰市发生枪击致3人死亡世界杯|事件|揭幕战世界献血者日：东方明珠、上海中心等多个城市地标点亮生命红世界献血者日千元就把艺术品带回家？不少人来这个展“觅宝”作品|画廊|带回家

深度