你方唱罢我登场。
过去一周,国产AI大模型赛道热闹非凡。先是阿里巴巴旗下超大规模语言模型“通义千问”开放内测,后有商汤科技、昆仑万维放出自家打造的大模型成果。与此同时,科大讯飞、腾讯、360、字节跳动等也在“摩拳擦掌”,纷纷将发展人工智能列为未来企业的核心战略……
国内科技企业围绕AI大模型上演“百团大战”背后,谁能凭硬实力拔得头筹?这一新兴技术,究竟是虚火过旺还是星辰大海?
南方日报记者 许隽 叶丹 郜小平
国产大模型“百舸争流”
AI大模型,指的是拥有数百万以上参数规模的深度神经网络模型。这类模型在经过专门的训练后,即可对海量数据进行复杂处理和任务处理。由海外科技公司OpenAI开发的ChatGPT之所以拥有强大的对话交互能力,背靠的正是名为“GPT”的AI预训练模型。
今年以来,随着ChatGPT爆红“出圈”,“大模型热潮”也从国外涌向了国内。
4月7日,阿里巴巴正式发布超大规模语言模型“通义千问”,并定向邀请用户测试体验。与百度于3月中旬上线的“文心一言”大模型工具类似,“通义千问”也具备与用户进行多轮对话的能力,并支持代码编程、文案创作等功能。
虽然没赶上国内大模型产品的“首发”,但是“通义千问”却可能是最早通过各个场景应用融入人们生活的一个。据阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇透露,钉钉、天猫精灵将于不久后正式接入该模型,未来阿里巴巴全系产品都将用上。
4月9日,360宣布,将基于360GPT大模型开发人工智能产品矩阵“360智脑”,未来将其率先落地在“360搜索”场景,后续面向电商、营销、办公等场景深度落地。
4月10日,商汤科技公布“日日新SenseNova”大模型体系雏形,并现场演示了该模型体系下“商量SenseChat”语言工具的超长文本阅读理解、健康咨询等创新能力。同日,游戏起家的昆仑万维也对外预告,不日将发布和奇点智源合作自研的大模型成果——“天工”3.5,并宣称这是“中国第一个真正实现智能涌现的国产大语言模型”。
京东、科大讯飞、腾讯、字节跳动打造的大模型产品也有望在未来一个月集中亮相。
除此之外,由美团联合创始人王慧文、创新工场创始人李开复、搜狗创始人王小川等企业高管领衔的“AI大模型创业军团”,也对AI大模型风口“虎视眈眈”。
“当前AI大模型仍是新兴技术,未来的竞争格局在一定程度上取决于各厂商的举措、战略方向与资本投资方向。”IDC中国助理研究总监卢言霞指出,目前AI大模型处于百花齐放的状态,未来企业要想真正跑赢对手,不能仅靠“一头热”,而是需要培养自身在数据、场景、软硬一体算力等方面的多重能力。
大厂上演AI“军备竞赛”
“每年5000万到1亿美元的花费,是千亿级大模型训练的入场券。”昆仑万维CEO方汉指出,AI大模型高昂的训练成本和研发投入,让众多入局者“望而生畏”。而据公开资料显示,无论是百度、阿里巴巴买还是腾讯、华为每年在研发上投入的资金均在百亿元规模,研发团队人数破万,且在技术研发上实力雄厚,是目前当之无愧的“第一梯队”玩家。
以华为为例,身处“制裁常态化”压力之下,2022年企业研发投入仍高达1615亿元,占总营收的25.1%,现金流表现整体健康。在AI大模型相关的技术积累上,华为拥有芯片、算力、模型、算法等完善的生态链布局。早在2019至2020年间,公司内部就已启动“盘古大模型”立项,该模型在预训练阶段累计学习了40TB大小的文本资料,参数规模达千亿级别,目前在工业、制造、金融、医药等行业场景都已有成熟的应用案例。
百度在人工智能领域布局已有近10年时间,是国内少数在芯片层、框架层、模型层、应用层有全栈布局的科技企业。同样早在2019年,公司就已打造文心大模型ERNIE 1.0。经过多轮迭代,目前模型已经升级到3.0版本。除在模型框架内的基础训练外,ERNIE3.0每天还要接收数十亿用户的搜索请求,这为“文心一言”积累了丰富的语料库。
相较之下,阿里巴巴与腾讯在大模型方面虽然没能抢占“头啖汤”,但是基于原有业务、资源和技术的积累,他们却是最有机会推动模型技术向C端用户普及的两家。在业内人士看来,深厚的算力积累和丰富的应用场景,都是阿里和腾讯的最大“法宝”。
以阿里巴巴为例,张勇曾经指出,大模型是一场“AI云计算”的全方位竞争。超万亿参数的大模型研发,并不仅仅涉及算法问题,更囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模AI基础设施的支撑。而阿里云从2019年就开始投入大模型研发,算力优势突出,是全球首个完成10万亿参数AI大模型训练的企业。
腾讯方面虽然还没有发布通用的AI大模型工具,但企业自身不乏在网络、存储、软件优化、训练框架和芯片等大模型技术上的积累,距离打造一款成熟产品只有“一步之遥”。
而从各自的特有优势来看,百度拥有“搜索”这一核心流量入口,有利于第一时间抢占用户心智;阿里、腾讯各自拥有钉钉、天猫精灵,微信/QQ等丰富的应用生态,能够推动广泛的场景落地;华为大模型成果在B端已有成熟落地,有望率先在垂直细分领域做出成绩。
“直道冲锋”任重而道远
浙商证券指出,大模型越来越成为当下科技企业核心竞争力的重要体现。与“元宇宙”等概念不同,大模型有着相对清晰的商业模式和应用场景。目前,业内也已基本形成共识:大模型将成为AIGC(即AI生成内容的生产方式)时代的核心支撑。
“中国需要有自己的AI大模型,这是彰显科技创新实力的需要,也是经济和社会发展的需要。”互联网分析师易方寒告诉南方日报记者,以语言大模型为代表的大模型,作为实现通用人工智能的关键路径之一,将成为国内外科技企业竞逐的主赛道。
然而,在推动国产AI大模型发展的过程中,人才储备不足、算法和模型质量不高、算力存在短板等问题,仍然是摆在百度、阿里巴巴等科技企业面前的难题。
以算法和模型质量不高为例。经与ChatGPT对比,百度“文心一言”、阿里巴巴“通义千问”等模型在逻辑思辨、复杂数理计算上仍有不小的提升空间。此外,在中文语料库方面,据深圳数据交易所董事长李红光指出,我国还面临数据分散,导致数据支撑不足的问题。
“数据分散在不同的地方,碎片化比较严重,也比较封闭,同时,没有经过整理的数据,存在字段缺失、信息不准等问题,目前国内数据流通中存在供给不足的问题,尤其是高质量的数据供给不足,限制了国内AI大模型的发展。”李红光分析,数据资源变成数据要素,关键点就是数据治理,原始数据经过治理升级后才会成为人工智能领域的支撑。这也正是数据交易所存在的价值——给国内AI大模型的发展提供数据“养分”。
能耗方面也有挑战。在中兴通讯执行副总裁、首席运营官谢峻石看来,大模型的高速发展,也意味着巨大的能耗——有数据显示,ChatGPT的总算力消耗约为3640PF-days,需要7-8个投资规模30亿元、算力500P的数据中心才能支撑运行。如何降低训练大模型的成本和能耗?能否通过自研AI加速芯片降低推理成本?这同样需要业界共同思考并解决。
此外,生成式AI也带来了一系列隐患,包括国家安全、虚假内容、数据泄露、侵权风险、失业风险、滥用风险等。对此,西南政法大学数字法治政府研究院研究员郑志峰认为,我国需要构建一套涵盖研发、利用全过程、全要素的监管机制,划清技术红线,确保技术向善。
“中国认知智能大模型的发展不仅要‘弯道超车’,还需要‘直道冲锋’。”科大讯飞副总裁、研究院院长刘聪指出,我国丰富的互联网应用生态,为国产AI大模型的落地提供了肥沃的土壤。此外,在垂直类别或多模态的大模型领域,我国也存在“弯道超车”的机会。
尽管如此,要想对标目标并保持差距不断缩小,我国仍然需要在芯片、高质量数据、系统迭代等方面“正面击破”。“我们要正视差距,并且以最先进水平为目标奋起直追。”
相关稿件