“千模大战”热潮下的AI冷思考
文章转载来源:AI之势
原文来源:国际金融报
2023世界人工智能大会虽然已经闭幕,但由ChatGPT掀起的大模型热潮还将继续涌动,人工智能的布局和探索也将是近些年的一大主题。“先上牌桌”“抢下先手棋”是掀起这一轮“百模大战”热潮的行业共识,并引导行业跨入“千模大战”。
(相关资料图)
图片来源:由无界 AI 生成
7月初申城人工智能热潮涌动,2023世界人工智能大会无论参展企业数量还是展览面积均创历届之最,多家企业在会上宣布将发布AI大模型。高温、强对流天气都没能冲散大家的热情,展会门口一度引来黄牛售票,不少人扶老携幼一探人工智能发展前沿趋势。
热潮下,也应该冷静看到大模型仍面临鲁棒性、合规可信等核心问题。与发达国家相比,我国在芯片、算力、数据等方面仍有差距,数据稀缺是影响大模型应用落地的一大难题,其中高质量的中文语料数据获取难度大是制约国内大模型发展的一大因素。
在核心问题尚待突破、差距正在弥合的现阶段,中国的AI发展要探索一条怎样的发展路径?在三天论坛和对现场多位参会行业专家的采访中,记者得到的最多答案是“垂直整合”“落地应用”,在垂直领域率先尝试应用起来,构建组合式AI系统是近些年国内AI发展趋势。
“先上牌桌”
当前,发展数字经济已成为全球共识。人工智能作为一种战略性新兴技术,正日益成为产业升级和生产力提升的核心驱动力。2022年11月,OpenAI推出对话式通用人工智能大模型ChatGPT,全球新一轮AI创新热潮随之掀起,国内多个人工智能大模型相继推出并快速迭代。
在2023世界人工智能大会上,大模型是当仁不让的主角。百度文心一言、阿里云通义千问、华为云盘古、讯飞星火、商汤日日新、澜舟孟子MChat、星环无涯Transwarp Infinity、蜜度蜜巢系列、拓尔思拓天、达观“曹植”等通用和垂直大模型让人目不暇接。
萨摩耶云科技集团创始人、董事长林建明在会场接受《国际金融报》记者采访时指出,AI正处于新一轮产业趋势的起点。从大模型的布局来看,百度、阿里、华为等“高端玩家”从算力层、平台层、模型层、应用层进行“四位一体”布局;科研院校及初创科技公司另辟蹊径,以研发大模型算法及细分领域应用为切入口。
林建明表示,目前国内大模型参数基本都处于千亿及以上规模,应用方向看,大部分企业前期以内部应用为主,逐渐向B端企业进行延伸。人工智能技术不断取得突破,大厂和中小科技公司竞相逐鹿大模型,自然谁都不愿错过这个时代大浪潮。只有“先上牌桌”,才能抓住规则这张“王牌”。而在移动互联网红利消退的背景下,选择拥抱大模型,有望带来新的增长点。
IEEE/CAAI Fellow、清华大学惠妍讲席教授、电子系长聘教授、衔远科技创始人周伯文告诉《国际金融报》记者,中国应走通基于“自主创新、安全可控”的大语言模型与生成式人工智能技术发展路线,着力推动具备通用能力的大模型在垂直行业的广泛应用落地。此外,商业应用、学术创新和技术生态都需要多元化,不能完全集中在一个大模型之上,也不应都用一种思路去做事情。
多重挑战
AI热潮下,大模型仍面临鲁棒性、合规可信等多重挑战。林建明直言,和国际上比尤其是对标美国,我们在AI芯片、专利、算法研究、成熟的创新生态系统等方面仍存在一定差距。现在制约国内大模型发展的主要在于:一是大模型需要大算力,我们在芯片及算力方面存在短板;二是缺乏高质量的中文语料数据和行业数据;三是专业人员数量稀少,基础研究创新力不够。
“金融业是个特殊的存在,对风险管理和安全性要求非常高。研发金融大模型面临的信任风险、模型风险、伦理、稳定性、准确性、数据安全、合规性等风险的挑战更加严峻。”林建明指出。
马上消费副总经理、首席信息官蒋宁在接受《国际金融报》记者采访时表示,AI大模型仍面临在关键决策上的动态适应性、鲁棒性、合规可信等核心问题,如何排除噪音以及干扰性问题,在突发和不可预期情况下,实现关键决策的持续稳定和合规可信尤其关键。
蒋宁指出,国内大模型缺乏原创性突破,模型推理能力、大模型生成能力仍有差距。大规模、高质量的中文语料数据获取难度大是制约国内大模型发展的一大因素。具体到金融领域,其还面临隐私保护、持续稳定、合规可信等多方面的挑战。
周伯文认为,当前AI大模型的训练,算法端向神经网络Transformer模型收敛,算力端依赖具备大规模并行计算能力的AI服务器集群,数据端则需要巨大数据量的大规模数据集投喂,如果从AI三要素来看,数据稀缺性明显是导致大模型应用落地的一大难题。诸如金融行业这类对数据安全和用户隐私保护要求极其严格的特定领域,也向大模型提出了可信赖、自主可控与强安全等一系列挑战。
周伯文表示,大模型产业化也面临挑战:一是数据规模大,且数据质量参差不齐;二是模型的体积大,训练难度很高;三是算力规模大,性能要求高。因此,大模型研发依赖算法算力和数据的综合支撑。大模型是未来产业发展的重点,但大模型的商业模式值得探讨。因为大模型的成本壁垒非常高,大公司和小企业都有各自的负担。
垂直整合
在核心问题尚待突破、差距正在弥合的现阶段,中国的AI发展要探索一条怎样的发展路径?还有哪些发展机遇?蒋宁指出,构建组合式AI系统是发展趋势,有效结合各种垂直领域的辨别式模型的可用性和专业性,以及生成式大模型的迁移学习和泛化能力强的特点,从而在工业界真正发挥大模型的泛化能力优势。
林建明指出,大模型未来在城市、行业、企业等千行百业数智化过程中大有可为。国内布局大模型要加强自主创新能力,从算力、算法、人才等各个层面提升大模型的核心竞争力,还要紧密结合国家战略需求和行业发展方向,深入探索行业痛点和场景。
此外,“要发挥自身技术、场景、用户和行业数据及行业Know-How(行业秘诀)打造垂直领域大模型;以‘通用模型+行业Know-How专用模型’为实体经济赋能,建立自身壁垒优势。”林建明表示。
周伯文认为,大模型产业应从端到端做起,慢慢迭代出更大的商业模型,或许是更适合的做法。在具备通用能力的基础之上,于垂直领域不断训练、提升大模型的专业能力,是未来帮助大模型这项技术发展进步的一种重要手段。
周伯文指出,从理论、技术层面来看,差异一定是存在的。在AI的发展上,一方面我们是技术层面的追赶者,另一方面我们也很可能成为应用层面的创新者甚至引领者。中国的AI需要探索一条新的道路,即垂直整合从自研通用大模型到应用、用户全场景闭环,实现生成式人工智能技术与商业价值“双落地”。
对于创业竞争,周伯文认为,可以分成三条路线看待:第一条路线是自己做具备通用能力的底层大模型,从技术算法到模型迭代、场景闭环都具备;第二条路线是基于别人的模型(如GPT),然后结合自己的行业Know-how去做训练;第三条路线是纯粹做应用,是将模型拿来直接使用,这种壁垒会较低。