来源: 中国冶金报社
继ChatGPT大模型后,国内智谱AI的ChatGLM、百度的文心一言、科大讯飞的星火等国产大模型如雨后春笋般涌现,被称为“百模大战”。在它背后,不仅是各家技术实力的比拼,也是应用场景落地能力的较量。令市场狂热的大模型究竟有何魔力?当钢铁行业遇见大模型,又会碰撞出怎样的火花?近日,《中国冶金报》记者专访了智谱AI CEO张鹏,围绕当前的“大模型热”进行了对话。
智谱AI于2019年由清华大学计算机系技术成果转化而成立,于次年便开始了GLM预训练架构的研发,是国内最早从事大模型相关研究的机构之一。“面对‘大模型热’,如果用一个词来形容我的想法,那就是笃信。”张鹏指出,“信”当然就是相信这件事情,大模型一定是通往AGI(通用人工智能)的必经之路,能创造更大的价值;“笃”是一种踏实、审慎的态度,相信是基于对这件事情的理解和钻研,而不是狂热、没有根基的。
从纸上谈兵到实践躬行,大模型为什么这么“热”?
大模型的起源可以追溯到2017年,Transformer算法架构的诞生,开启了大模型演化的历史进程。虽然在接下来的几年内,BERT、GPT-1、GPT-2也先后出现,甚至BERT在十多个自然语言理解任务上大大超过传统算法的精度,但依旧没有在业界引起太多的火花,直至2020年的到来。“这一年是大模型元年。”张鹏表示。
GPT-3的问世大大提高了模型的内容生成和逻辑推理能力,它在上下文学习和知识(常识)理解等方面展现出惊人能力。随后在全球范围内掀起了一股基础模型研究的热潮,国外如 Meta、微软、谷歌等,国内如清华大学、北京智源人工智能研究院、百度、华为、阿里巴巴、智谱AI等,都竞相追赶,提出包括Gopher、Chinchilla、PaLM、GLM-130B等在内的多个千亿元级模型。
然而,复杂的研发技术以及高昂的训练成本,也让不少人望而却步。在当时,并不是所有人都能够看清技术发展脉络,而大模型对资金投入的要求很高,贸然投入风险颇大。“当时,我们邀请了一些学界的教授对未来技术的演进方向进行研讨,大家都认为这是大模型到达了一个临界点的信号,AI开始真正进入了可用阶段。但是我们在寻找算力、模型工程问题等方面遇到了很多困难,最后犹豫了很久才决定all in(全部投入)大模型,开始自研算法框架。”张鹏表示。
直至2022年底,ChatGPT发布才真的激起了“百模大战”的开始,与过往的机器学习技术不同,ChatGPT不再是枯燥的技术理论,它能够在各领域的应用场景反复验证,人们才真正感受到大模型“智能涌现”的魅力。ChatGPT实现全球用户破亿仅用了短短两个月,而电话用户破亿用了75年,手机用了16年,网站用了7年,此前用户增长最快的应用TikTok也用了9个月。
百家争鸣、百花齐放,对“大模型热”要注意什么?
ChatGPT的发布激发了更多机构和公司的研发斗志和热情,众多资本纷纷投入到大模型研发的蓝海之中,相关部门也关注到了这一重要的技术创新,给予了非常多的政策支持,进一步促进了大模型的研发和优化升级,形成了“百家争鸣、百花齐放”的科技发展新态势。这也让已经积累了两年技术实力的智谱AI从幕后走到了台前。
但面对“大模型热”绝不能盲目。大模型的开发和应用虽然会助推产业和经济发展,但如果不加以合理管控,也会给产业安全带来风险。一方面是芯片的“卡脖子”问题。算力是大模型的基础之一,如何保证算力的持续稳定供应是产业安全必须关注的问题。另一方面,产业所使用的基座模型是否安全可控也是一个重要的问题。模型的训练数据是否安全合规,模型是否自主可控,会不会像“芯片进口”一样遇到各种限制?这些都是影响产业长远发展的重要问题。
面对风险挑战,张鹏指出,作为一家创业公司,做大语言模型要有很大的决心,除了研究层面上的挑战,还有模型训练工程层面上涉及到的资源投入、团队、训练数据等一系列的事情。在芯片问题上,智谱AI在研发之初便制订了国产硬件适配计划,目前已经与十余家国产芯片厂商合作,希望可以在全方位适配的同时,提升模型在国产硬件上的训练推理效率。此外,智谱AI也选择了从底层算法开始自研,以实现基座模型安全可控的目标。
“国产大模型与国外大模型之间的差距依然存在,但我们有信心去追赶这个差距,我们一直在不断创新的路上。”张鹏表示。
传统产业+大模型,如何放大应用价值?
当前,随着人工智能的快速发展,大模型的应用已经逐渐从研究领域扩展到工业实践中,形成工业大模型。从“通用”到“应用”,大模型正在叩响工业制造的大门。
从研发难度来看,无论是通用大模型,还是工业大模型,研发投入、核心人才和应用场景都是不可或缺的,也构成了市场的核心壁垒。而工业大模型对算法模型的有效性、高质量的数据、算力的支撑能力有极高要求,模型的优化迭代亦有赖于资金和人才的持续投入。因此,大模型的实际落地和行业应用能力成为了市场检验的重要标准。
“工业大模型的普适性商业应用尚需探索。”张鹏认为,一是工业大模型需与其他数字化产品进一步整合,满足工业企业对网络、算力以及数据管理的一体化要求,实现即买即用。二是工业企业使用门槛仍然较高,比如需要基于提示词进行应用开发,把问题解决的长线逻辑和相关案例融入进去,使大模型能按照预设步骤、思考链路和回答格式来产生答案。三是工业各领域已存在大量工业软件、工业互联网平台,如何利用大模型形成协同生态将深刻影响用户感知及产品生命力,允许并鼓励第三方开发者基于工业大模型开发插件是重要路径,如OpenAI正基于ChatGPT+插件加快构建自己的生态圈。
大语言模型会重塑千行百业的业态,但需要在具体的行业落地方面投入更多资源。任何一项技术发展到一定程度之后,都必然会产生更多实际价值。如何实现价值,常见的一种说法是并不需要通用的基座大模型,只需要小的、中量级的、合适的行业模型。但大语言模型能力突破的根本原因在于,它对世界知识的学习和建模,使得它具备了接近人的理解推理和更进阶的认知能力。张鹏表示,最理想的状态是,行业模型并不是完全独立于基座模型和通用模型,而是生长在基座模型之上,基于它进行进一步的训练和微调。
当前,我国传统产业正面临智能化转型,加入行业特色数据与知识、精准匹配真实应用场景的行业大模型,能够极大地提升业务流程效率和水平,驱动产业转型升级。钢铁工业具有生产流程连续、工艺体系复杂、产品中间态多样化、大型高温高压设备集中、人员安全要求高等特征,属于典型的流程型制造业,面临着严峻的资源、市场、环保、竞争等挑战。“钢铁工业亟需通过大模型等先进技术及场景化创新应用,提升行业的绿色环保、安全保障水平和生产效率。”张鹏说。
对于大模型如何在钢铁行业应用,张鹏表示,可以打造钢铁工业人工智能解决方案,以具备通用基础能力的AI大模型作为智能底座,结合行业知识和场景数据进行训练和微调,从而有效应对碎片化和多样化需求,并大幅缩减研发、定制、部署、调优等工程化过程中的人力、时间、费用等成本投入,也能解决好数据安全问题,促进人工智能在钢铁行业大规模应用,促进钢铁行业智能化升级。