“百模大战”走向何方?,国产“小模型”官宣开源,Meta硬刚OpenAI百模大战|AI|国产

发布时间:Apr 14, 2024 14:08 PM

今年以来,全球互联网大厂掀起“百模大战”,微软、谷歌、百度、阿里等接连下场。经过半年多的竞争,科技巨头们围绕大模型生态正迎来新一轮道路之争:面对参数“天花板”,大模型的未来走向封闭还是开放?

开源模型可在家用电脑运行

8月3日,国内AI开发者社区“魔搭”上架两款开源模型Qwen-7B和Qwen-7B-Chat,分别为阿里云通义千问的70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。

据介绍,通义千问Qwen-7B是支持中英等多种语言的基座模型,在超过2万亿token数据集上训练,而Qwen-7B-Chat是基于基座模型的中英文对话模型,已达到人类的认知水平。简而言之,前者好比“地基”,后者是地基之上的“房屋”。

经过实际测试显示,Qwen-7B模型的综合表现不俗。其中在英文能力测评基准MMLU上,得分普遍高于同等参数规模的主流模型,甚至赶超120亿、130亿参数规模的部分模型。而在中文评测C-Eval验证集上,该模型也取得了同等规模的最高分。在数学解题能力评测GSM8K和代码能力评测HumanEval方面,Qwen-7B模型表现也名列前茅。

也就是说,在中英文写作、数学解题以及写代码等考试中,Qwen-7B模型妥妥是一名“学霸”,分数甚至超过同等参数级别的国际主流大模型。

除此之外,业界更关心Qwen-7B模型的易用性。众所周知,主流大模型的训练和运行需要专门的AI训练芯片,这些芯片不仅售价昂贵,每块英伟达A100售价高达1万—1.5万美元,而且被欧美等国家垄断,国内几乎无法购买。而国产Qwen-7B模型支持消费级显卡上部署,相当于高性能的家用电脑就能运行该模型。


“百模大战”走向何方?,国产“小模型”官宣开源,Meta硬刚OpenAI百模大战|AI|国产

得益于免费商用加上低门槛,Qwen-7B模型的上架,引起了AI开发者的关注。短短一天,在代码托管平台GitHub上,Qwen-7B模型已被千余名开发者标星收藏,绝大多数提问者均为中文开发者。正如阿里云在声明中所说:“相比英文世界热闹的AI开源生态,中文社区缺少优秀的基座模型。通义千问的加入有望为开源社区提供更多选择,推动中国AI开源生态建设。”

开源还是封闭

事实上,Qwen-7B模型并非首款开源的大模型,其实ChatGPT的“前辈”GPT-2也是彻底开源的,其代码和框架在互联网上均可免费使用,还有相关论文可供查阅。而OpenAI在ChatGPT火遍全球之后选择了闭源发展,GPT-3和GPT-4等模型代码已成为OpenAI的商业机密。

所谓开源,就是开放源代码。比如大模型一旦宣布开源后,在版权限制范围内,任何人都可以公开获取模型源代码,并进行修改甚至重新开发。打个简单的比方,源代码就像是一幅画的底稿,所有人可以照着底稿填色创造自己的艺术画作。

闭源与开源正好相反,只有源代码所有者掌握代码修改的权力,其他人没办法获取“底稿”,只能向软件开发商购买成品。

开源和闭源的优劣都非常明显。大模型开源后无疑会吸引更多开发者,大模型的应用也将更加丰富,但相应的监管和商业化将成为难题,容易出现“替人做嫁衣”的尴尬局面。毕竟,开源考虑的是生态共荣,到底能赚多少钱的经济账,这一阶段很难算清楚,而这些难题恰好是闭源的机遇。

开源还是闭源,这是一道大模型的生死题,国际巨头已给出答案。


“百模大战”走向何方?,国产“小模型”官宣开源,Meta硬刚OpenAI百模大战|AI|国产

Facebook母公司Meta在上个月发布了大模型Llama2,开源免费给开发者和商业伙伴使用,而OpenAI则坚定地选择了GPT-4闭源发展,不仅能保持OpenAI在生成式AI行业的领先地位,还能赚取更多营收。根据权威杂志《FastCompany》预测,OpenAI在2023年的收入将达到2亿美元,包括提供API数据接口服务、聊天机器人订阅服务费等。

国内大模型也逐渐开始“分道扬镳”。阿里云的通义大模型早在今年4月宣布向企业开放,Qwen-7B模型的开源将开放之路走得更远一些。百度的文心一言也在近期宣布,将逐步开放插件生态给第三方开发者,帮助开发者基于文心大模型打造自己的应用。

相比之下,华为则不走寻常路。在发布盘古大模型3.0时,华为云公开表示,盘古大模型全栈技术均由华为自主创新的,没有采用任何开源技术,同时盘古大模型将聚集无数行业大数据,因此盘古大模型在未来也不会开源。

大参数还是小而美

除此之外,Qwen-7B模型的开源,还带来了另一个思考:我们到底需要多大参数的大模型?

不可否认,大模型的参数规模正在不断膨胀。以OpenAI旗下的GPT大模型为例,GPT-1仅包含1.17亿参数,GPT-3的参数已经高达1750亿,几年时间内增长了1000多倍,而GPT-4的参数已超过万亿级别。

国内大模型亦是如此。百度文心大模型为2600亿参数,腾讯混元大模型达到千亿级参数,华为盘古大模型参数规模推测接近GPT-3.5,阿里通义大模型官宣已达10万亿参数……据不完全统计,中国10亿参数规模以上的大模型至少有79个。


“百模大战”走向何方?,国产“小模型”官宣开源,Meta硬刚OpenAI百模大战|AI|国产

遗憾的是,参数越大并不代表大模型的能力越强。在世界人工智能大会上,腾讯云副总裁吴运声有一个很恰当的比喻:“就像运动员练体力,举重运动员要举200斤杠铃,游泳运动员举100斤就够了,不同类型的运动员不需要每个人都练习200斤重的杠铃。”

众所周知,大模型的参数越高,消耗的资源和成本也越相应增加。而深耕行业的垂直类大模型,并不需要一味追求“规模大”或是“参数高”,更应该根据客户需求制定相关的模型参数。比如生物大模型BioGPT-Large仅有15亿参数,而在生物医学专业测试中的准确率,却优于千亿级别参数的通用大模型。

OpenAI联合创始人SamAltman也公开表示,OpenAI正接近LLM规模的极限,规模越大并不一定意味着模型越好,参数规模不再是衡量模型质量的重要指标。

火山引擎智能算法负责人吴迪也有类似观点,长期来看,降低成本将成为大模型应用落地的重要因素,“一个经过良好精调的中小规格模型,在特定工作上的表现可能不亚于通用大模型,而成本可能仅为原来的十分之一。”

当下,国内科技大厂几乎都拿到了大模型的入场券,但真正的道路抉择才刚开始。

“强身健体”折射哪些新理念,上海卢浦大桥史上首次结构性维修“悄悄”完成卢浦大桥|大桥|理念
“强身健体”折射哪些新理念,上海卢浦大桥史上首次结构性维修“悄悄”完成卢浦大桥|大桥|理念

上海黄浦江上第六座大桥、有“世界第一拱”之称的卢浦大桥,日前完成建桥以来的首次结构维修。从2015年以来,上海城市桥梁进入保养高峰期,多座标志性桥梁进行了维护改造,包括浙江路桥、南浦大桥、杨浦大桥、松浦大桥等。比它们更年轻的卢浦大桥,为何早早开始“强身健体”?解放日报·上观新闻记者了解到,在这次维护之后卢浦大桥还要考虑“升级”,折射城市市政设施运营新理念。祛除病害可再维持多久?6月28日,是卢浦大桥通车运营20周年纪念日。刚满20岁的年轻桥梁,为何早早开始了维修工程?“卢浦大桥主体结构的设计年限是1

日均出动道路保洁人员2.5万余人次,端午假期公园接待游客155万人次林地|设施|人员
日均出动道路保洁人员2.5万余人次,端午假期公园接待游客155万人次林地|设施|人员

端午小长假受雨水天气影响,上海公园游客接待量较往年同期有所减少。上海市绿化市容局今天公布数据,端午小长假上海公园共接待游客155.36万人次。假期恰逢强降水,上海绿化市容行业坚持“安全第一,常备不懈,预防为主,全力抢险”,积极应对强降水和雷雨大风天气等状况,3天内安排一线作业人员提前到岗,日均出动道路保洁人员2.5万余人次,对公交枢纽、景观区域、地铁站出入口、大型商圈等重点区域开展快速清扫保洁,及时清除排水口周边的垃圾和落叶,保障市民出行。上海绿化林业部门提早绑扶新种林木,清理沟渠内枯枝落叶,疏通林地排

徐家汇夜生活节消费场景持续上新,越夜越精彩本土|消费|徐家汇
徐家汇夜生活节消费场景持续上新,越夜越精彩本土|消费|徐家汇

“夜间经济”是城市活力的风向标,作为国家级夜间文化和旅游消费集聚区之一,自2023上海夜生活节启幕以来,“体育+”“本土+”“潮流+”,徐家汇夜生活节消费场景持续上新,为广大市民和游客带来“越夜越精彩”的全新消费体验。作为首批上海市体育产业集聚区,“2023徐汇区体育消费嘉年华活动”已于6月9日—11日在徐家汇商圈开启。此次为期3天的嘉年华中,30多家著名体育品牌、上海市体育头部企业和特色体育机构入围活动。此外,上海自由搏击业余公开赛、中国坐标上海徐汇定向户外挑战赛、徐汇区篮球季决赛、一镖掷胜飞镖挑战赛等

欧洲游价格大涨怎么玩?“花更少钱玩更多地方”依然可以做到世界|欧洲|欧洲游
欧洲游价格大涨怎么玩?“花更少钱玩更多地方”依然可以做到世界|欧洲|欧洲游

三年疫情后国门重开,外面的世界已发生诸多变化。对中国旅行者来说,遍及全球多国的通货膨胀和欧洲能源危机,令欧洲游成本大幅上升。面对这样的新形势,今天在上海地铁静安寺站漫选商业街拉开帷幕的“2023欧洲旅行嘉年华”上,旅游从业者提出了“Travelmoreforless”的理念,力争为偏爱特色线路的游客提供更多定制化的旅行线路。此次欧洲旅行嘉年华活动是第四届”五五购物节“活动,也是“上海进口嗨购节“的重要活动之一。来自瑞士、英国、克罗地亚、波兰、挪威、丹麦、英国、德国汉堡、比利时法兰德斯、瑞典、葡萄牙等

陆家嘴论坛靠什么让世界瞩目,15年来经济|金融|论坛
陆家嘴论坛靠什么让世界瞩目,15年来经济|金融|论坛

明天,第十四届陆家嘴论坛将在上海开幕。开办15年来,这一金融领域的高端对话交流平台,已经成为上海的一张名片,也是中国金融走向世界的一张名片。一个有意思的巧合是,首届陆家嘴论坛起步于2008年,当时人们关注的是在金融危机影响下,全球经济何时能好转并复苏。而本届论坛大家更关心的,显然是在疫情之后,金融如何助力全球经济复苏。问题相似,答案却不尽相同。全球金融人士每一次来到陆家嘴论坛,都在为现实世界中的金融发展问题,寻找答案。15年来,一些答案已经逐渐清晰,一些答案仍在不断探寻。这也许就是陆家嘴论坛让世界瞩目