出路何方?,国产大模型“诸神之战”人类|数据|国产

发布时间:Apr 13, 2024 21:26 PM

1956年,达特茅斯学院的一场会议上,参会者热烈地讨论:如何开发出像人类一样能从经验中自主学习的计算机系统。这场会议被后人视为打响了人工智能研发的第一枪。

60余年后,美国OpenAI公司八年磨一剑的人工智能大模型ChatGPT3横空出世,人们争相在社交媒体展示它那令人吃惊的能力,ChatGPT4更是“所向披靡”:作诗、写文案已不在话下,它甚至有了逻辑推理能力,还能自我纠错。那场著名会议的答案似乎已不言自明。

前不久,在2023中国国际大数据产业博览会上,AI、大模型、ChatGPT、元宇宙等关键词频频出现。在以“人工智能”为主题的会场,人头攒动,听会的人从会场内排到了会议室门口,还不断有新来的人挤进来。

在不同的会场和论坛上,来自不同领域的人们似乎都聚焦一个兴趣点,他们试图搞明白人工智能会对未来行业带来哪些颠覆性的变革,国产大模型之路应该如何走,还有什么基础工作要做。

想解决实际问题,大模型还要“念个博士”

孙茂松让ChatGPT找出《阿房宫赋》中描写阿房宫的句子,令他惊讶的是,它竟然一字不漏地找出来了。

孙茂松是清华大学计算机科学与技术系教授,也是该校人工智能研究院常务副院长,他研究自然语言处理,跟ChatGPT“专业对口”。在演讲中,他多次感叹:“它确实厉害!”

考完文字功夫,孙茂松又问ChatGPT,如何根据《阿房宫赋》绘制阿房宫的图景。ChatGPT像写剧本一样分了5个场景:阿房宫的宏伟壮观、阿房宫建筑风格、水景与桥梁、春光与武殿、迷宫般的宫殿布局。

今年以来,ChatGPT的博学已经广为人知,但美国国家工程院院士、东方理工高等研究院常务副院长张东晓认为:“大模型有很强的能力,很博学,相当于中小学生。要解决实际问题,还要上大学,还要念一个专业、念一个博士,或是成为那个领域的工程师。”

过去这段时间,ChatGPT所属公司OpenAI已与科技、教育、金融等行业的数百家公司或组织开展合作。

孙茂松认为:“可以重塑一个产业,也能够重塑产业的生态。”

他举了个例子:有人想订家酒店,要求价格别太贵,最好离王府井近一点,而且要安静一些。面对用户的种种要求,以前要做到这一点很费劲,秘书可能要花两个小时才能找到这么一家酒店。而人工智能大模型会跟用户学习订酒店的习惯,效率大幅提高。

中国产学研合作促进会会长王建华说:“在人工智能影像医学这个领域,我们把全国医院的放射科和一些影像医学相关的企业进行融合,解决看片子完全靠人去看。通过人工智能的话,精准度比较高,而且它不疲劳。”

王建华注意到,现在有很多智能产品,比如可以通过大数据的对比,测定人体糖代谢水平。他认为,人工智能会影响到整个医学领域的创新和发展。

医渡科技有限公司创始人徐济铭更期待的是,人工智能能够加速新药研发。

新药研发是个漫长的试错过程,从细胞实验,到动物实验,再到一、二、三期临床试验,从实验室研究到上市可能需要10年、花费10亿美元——这被称为新药研发领域的“双十定律”。近年,辉瑞、阿斯利康等知名药企开始在新药研发领域引入人工智能,希望提高成功率、降低成本。徐济铭设想,通过人体多模态的数据构建一个模型,模拟人体器官的运作,在临床实验之前先通过这些系统模型做实验,AI可以由此造福人类。

在京东探索研究院资深算法科学家薛超看来,大模型就是未来的操作系统,它向上提供应用程序接口,向下可以兼容各种各样的硬件。比如,一个餐馆想要建立一个送餐机器人或者对话机器人,店主把餐馆的菜单输进大模型,这样就可以快速建立起功能机器人。

“AI未来会越来越平民化,越来越低门槛化,可以通过自然语言来控制它的整个交互。”薛超说。

研发大模型,提高数据“喂养”质量很关键

本届数博会上,知乎联合面壁智能发布了对话类模型产品“面壁露卡”。发布会上,主持人请它规划在贵州四天三夜的旅游路线。在“露卡”规划的旅游方案中,游客每天晚上都要从景点所在地返回出发点贵阳,第二天再出发前往下一个市州。路线略显冗长,好在覆盖了较为知名的景点和特色小吃。

上海交通大学人工智能研究院常务副院长杨小康称,国内的大模型研发可谓是“真正的诸神之战”,“据说有70几个大模型,甚至上百个大模型在研发”。他认为,研究大模型非常耗能,需要有序引导,形成合力。

贵安新区科创产业发展公司常务副总经理邓周灰提到“铁三角”理论:大模型是“大数据+大算力+强算法”结合的产物。他认为:“当前数据质量是一个比较堪忧的问题,国外进行大模型训练的时候,有很多不错的文献,还有一些科技文献,所以模型训练出来的智能化水平很高。但是我们现在在大模型训练的时候,大部分来自互联网,所以质量就不是特别理想。”

古人常说,兵马未动,粮草先行。在人工智能时代,数据正是“喂养”大模型的粮草。而在目前,“粮草”供应还存在大量现实困难。

晶泰智药技术有限公司副总裁王明泰说,数据需要标注和清洗,但医药研发领域有大量数据无法标注。王明泰表示,蛋白质序列可达到十亿级以上,但目前能够找到的蛋白质功能数据少之又少,“中间有巨大的差距”。

他还表示:“现在的数据主要是靠人做实验,然后提取录入系统,再‘喂’给机器学习。目前我们保守估计,中国可能有超过20万人在为全世界医药研发企业做实验,这些人可能都是本科以上学历,以后可能这么多人来做实验了。”这意味着数据产生的成本极高,而要“喂养”大模型,“必须是廉价产生的数据”。

在数据的源头,还存在标准不统一的问题。

达而观信息科技有限公司首席战略官刘江贤认为,要注意梳理我们究竟需要什么样的数据、怎样才能产生高标准的数据。他认为,首先要制订数据产生的标准和流程,选准产生大量有质量、有价值数据的区域,“要制定标准化生产的流程,才能够产生出我们想要的数据。”

在本届数博会的多场论坛上,嘉宾们提到了数据流通、交易的问题。

2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》对外公布,将数据定义为继土地、劳动力、资本、技术之后的第五大生产要素。2022年6月,中央全面深化改革委员会第二十六次会议上审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》,明确要建立数据产权制度、要建立合规高效的数据要素流通和交易制度、完善数据要素市场化配置机制。

北京雁栖湖应用数学研究院研究员、清雁科技董事长韩立岩接受中青报·中青网记者专访时解释说,数据成为生产要素、可以进入资产负债表,意味着它是企业资产的一部分,可以成为质押标的、帮企业融资,更可以为企业增信。这对于轻资产的科创企业尤为重要。

广州数据交易所总经理魏东说,湛江一家水产公司在广州数据交易所做了合规登记后,银行给予它的授信额度不仅增加了数倍规模,花费的时间也大为减少。

中国人工智能开源软件发展联盟副理事长王健宗说,以前数据不是生产要素,在企业产生后也不受重视,“可能都作为废品处理,有人要就拿走”。“现在定义为生产要素,毫无疑问大家都重视起来,一旦重视就是香饽饽了,共享和流通就存在了困难。”他说。

作为清华大学和北京雁栖湖应用数学研究院联合孵化的高科技公司,清雁科技正在建设“可信数据空间”,在这个虚拟空间里,他们努力让数据“可用但不可见”,由此既能促进数据资产的交易与共享,又能确保数据安全。

大模型产业之路,绕不开科技伦理和就业焦虑

上海山丘联康健康管理有限公司创始人、董事长颜艳春用充满诗意的语言表达了他的期待:“在工业文明时代,我们发现人类变成了机器,我们每个工人变成了流水线上的螺丝钉。ChatGPT会带来人类巨大的解放。”

他设想,人类也许不必“996”,“我们也许一天、两天就够了,因为有一个更庞大的‘新人类军团’正在面世。”

其实,新人类军团的“先遣部队”已经面世数年。早在2018年,戴姆勒金融服务就展示了它的第一个数字销售代表Sarah,她可以为人们计算买新款奔驰汽车的性价比,还可以为客户选择选装套件。同年2月,英国苏格兰皇家银行聘用了一位虚拟的客服机器人Cora,她了解客户喜好,能一眼识别出客户并叫出名字,一天能处理上千个问题,她还能从错误中不断学习。也是在2018年,瑞银集团宣布数字化“复制”了其首席经济学家,推出数字人……

颜艳春对于未来非常乐观:“我们认为,下一个50年,当碳基和硅基生命共生共荣时,每一个人都可能成为一个诗人,成为一个作家,成为一个导演,成为一个画家。甚至人人都有可能成为老师、医生和码农。”

他引用了泰戈尔在《飞鸟集》中的一句诗:信念是鸟,它在黎明仍然黑暗之际感觉到光明,唱出了歌。他说:“在当今人类文明高度‘内卷’的当下,我认为人工智能给我们带来了这样一场新的光明。”

一边是高歌猛进的人工智能技术,一边是技术担忧论:人工智能首先带来的,可能不是劳动力的解放,而是失业的浪潮。

孙茂松提到,过去20多年,人工智能给一些企业创造了巨大的价值;它还能使知识工作者的工作效率大大提高,预期到2030年,它会使财会人员的效率提高一倍、让程序员的编程效率提高两倍。

“这对公司是好事,对个人不一定是好事。意味着财会人员要砍掉一半,意味着75%的程序员可能不需要了。”他说。而剩下的人,需要拥有更高的水平。

2女子被捅身亡,被曝精神分裂症复诊前4天犯案,香港商场血腥命案嫌疑人今日出庭男子|上周五|命案
2女子被捅身亡,被曝精神分裂症复诊前4天犯案,香港商场血腥命案嫌疑人今日出庭男子|上周五|命案

据香港《文汇报》报道,香港钻石山荷里活广场上周五发生血腥持刀捅人案,警方拘捕一名39岁男子,他涉嫌捅死2名年轻女子,其中一人身中30多刀,疑凶今日上午在观塘裁判法院出庭。观塘裁判法院警方上周日暂控该嫌疑人两项谋杀罪,嫌疑人今日上午在观塘裁判法院出庭,署理主任裁判官郑纪航听取控辩双方意见后,决定延期两星期,至6月19日早上9时半再讯,等待索取两份精神科专家报告,辩方未反对。郑纪航批准申请,被告需被暂时拘禁于小榄精神病院。嫌疑人上庭时,戴黑色框眼镜,身穿浅灰色上衣、迷彩绿色短裤,能正常回答法官提问。据此

省委书记:已进入决战阶段,河南“夏收”重心转移至豫北地区农机|保障|科学|组织|全省|豫北|夏收|抢收
省委书记:已进入决战阶段,河南“夏收”重心转移至豫北地区农机|保障|科学|组织|全省|豫北|夏收|抢收

当前,备受关注的河南夏收工作重心已转移至豫北地区。据河南日报客户端报道,6月4日,河南省委书记楼阳生主持召开全省“三夏”工作专题视频调度会,听取情况汇报,分析研判形势,安排部署下一步工作。省长王凯作具体部署。2023年5月31日傍晚,河南焦作,博爱县许良镇下伏头村,村民们在麦田里冒着小雨抢收小麦。视觉中国图楼阳生指出,当前全省夏收攻坚战已进入决战阶段。做好豫北地区夏收工作,事关河南省夏粮产量,事关种子安全。要立足于抢,全力组织好豫北地区麦收工作,最大限度降低损失,最大程度保护农民利益。一要精准预报

新华全媒+|欢迎回家!哪些创新科技为神舟十五号返程保驾护航?飞船|神舟|科技
新华全媒+|欢迎回家!哪些创新科技为神舟十五号返程保驾护航?飞船|神舟|科技

6月4日,神舟十五号载人飞船返回舱在东风着陆场成功着陆,航天员费俊龙、邓清明、张陆全部安全顺利出舱,神舟十五号载人飞行任务取得圆满成功。本次任务中,有哪些创新科技为神舟十五号返程保驾护航?6月4日,神舟十五号载人飞船返回舱在东风着陆场成功着陆。新华社记者连振摄“天上地下”保障飞船高精度返回对于神舟系列飞船而言,返回再入GNC技术直接关系航天员的生命安全。以此次返回任务告捷为标志,我国自神舟十二号载人飞船起全面升级的,以自主快速交会对接、自主自适应预测再入返回制导为特征的GNC系统,完成全面更新换

中国舰艇编队抵达!集结|海军|中国舰艇编队
中国舰艇编队抵达!集结|海军|中国舰艇编队

今天中午,由海军湛江舰、许昌舰组成的中国舰艇编队抵达“科莫多-2023”多国海上联合演习的集结海域。据了解此次演习的集结锚地长3海里、宽1.5海里最多能锚泊50多艘舰艇参演各国的海军舰艇也将在今天全部抵达锚地完成集结“科莫多-2023”多国海上联合演习是印度尼西亚海军每两年举办一次的多国联演今年已经是第四届本届演习将于6月5日到8日在印尼南苏拉威西省的望加锡市举办包括港岸阶段和海上阶段未来几天参演的各国海军将参加阅舰式举行搜救演习、海上拦截损管操演、航拍演练等课目的演练

新漫评:驴象“斗气”极限拉扯美债“炸弹”引信难拆美国|债务|斗气
新漫评:驴象“斗气”极限拉扯美债“炸弹”引信难拆美国|债务|斗气

美国国会参议院6月1日晚通过一项关于联邦政府债务上限和预算的法案,美债“炸弹”的火捻在最后一刻被暂时熄灭。美国两党围绕美债“炸弹”上演了极限拉扯。有专家认为,美国债务危机是美元霸权推动的鲁莽政治的结果,而导致这场危机的深层原因就是美国高度两极分化的政治体制。二战结束以来,美国国会已调整债务上限百余次。反复上演的债务危机不仅会对美国经济和民生造成灾难性冲击,还将不断消磨美国政府信用和美债等美元资产价值,给全球经济格局带来显著冲击和深远影响。【