【学术沙龙】行业大模型:“通专结合”是关键挑战
文/吴文峻
自ChatGPT面世以来,生成式人工智能成为人工智能领域研究的热点。该技术的基本形态是通过采用海量数据来训练人工智能大模型,使其学会人类的语言文本和图像视频统计模式,从而在用户给出提示指令后,能够自动地生成所需的数字内容。
如何进一步推动生成式人工智能技术的发展,使其能够真正广泛落地应用,成为人们关注的焦点。
大模型正在构建“慢思考”能力
早期,研究人员设计了一个名为“爱丽丝梦游仙境”(Alice in Wonderland,AIW)的测试问题,即爱丽丝有N个兄弟,她还有M个姐妹,那么爱丽丝的兄弟有多少个姐妹?正确答案是M+1,即爱丽丝的姐妹数量加上她自己。
实验结果表明,大多数大型语言模型(LLM)回答这一类问题的正确率都比较低,只有GPT-4o达到了60%;而加大难度继续设置堂兄妹等更为复杂的关系后,几乎所有LLM都无法正确回答。
随着研究的深入,大模型的推理能力也在提升。例如,OpenAI相继推出了o1、o3推理模型,我国的DeepSeek也推出了R1推理模型,这些系统提升了大语言模型的认知推理能力。基于Transformer架构的大语言模型可以归类为一个巨大的知识库,通过模型参数来表征这些知识,当用户发出提示词指令时,指令会触发大模型的查询过程,即通过大规模神经网络的推断(Inference)计算来完成逐个Token的生成,以一种“快思考”的方式来完成回答。这种思考方式就像人类思维在秒级速度下的感知响应与直觉判断,非常有别于人类分析复杂问题的分步骤、长时间的“慢思考”过程。历史上出现的符号主义也聚焦于构建“慢思考”的AI系统,它基于数量逻辑的方法,通过开发知识库和知识图谱来实现逻辑推理。符号主义与神经网络的联结主义形成了人工智能领域完全不同的两种学术思想和技术路线,长期以来无法真正地统一融合。
OpenAI的o1系统和DeepSeek的R1系统实际上就是在现有大语言模型基础上,试图把“慢思考”的方式加进去,本质上是通过构造动态的思维链,模拟人类在解决复杂问题时所采取的逻辑思维推理过程。这两个模型将按照这个推理过程的模板去执行,并且在推理过程中,对问题进行动态搜索,显著提升模型能力。
与此同时,通过构建“慢思考”能力的方式也将“神经标度律”(Neural Scaling Law)提升至新的维度。因为神经标度律不仅受模型参数、数据语料规模的影响,还取决于推理计算时间这一维度,即当模型具有一定“慢思考”能力后,推理时间越长,模型对问题的分析就越清晰、思考越深入,推断的结果就越具有专业性。
目前,依据做数学题、编写代码等评测的结果,o1系统的数学水平和编码水平可以取得很优异的成绩。也有人对o1系统开展综合认知思考测评,表明o1系统在很多方面都比人类表现更佳。
2024年12月21日OpenAI发布的o3模型,其能力比o1系统还要提升一个级别,无论是数学题、博士级别的考试题,还是代码分析能力都要更优越。其中,对“通用人工智能抽象和推理语料库”(ARC-AGI)的测试,是通过一系列抽象和推理任务来评估人工智能系统的能力。例如,在视觉推理方面,根据几个图形的例子推出相关规则,从而判断下一个图形是什么,GPT-4的正确率只能达到1%~10%的水平,但o3系统已经达到87%,比人类平均水平85%还要高出两个百分点。
大模型逻辑推理能力的提升,对人工智能未来的发展,特别是对行业的应用会产生非常深远的影响。
推理能力仍需持续攻关
对于当前研究取得的进展,或许可以说我们正站在新的历史起点上,这些进展意味着很可能要对符号主义的一些成果和现有的大模型框架进行更深入的结合思考。当然,大模型的推理能力仍然需要持续攻关,包括逻辑推理、常识推理、数学推理、智力测试、算法推理、科学推理、具身推理等方面。
以常识推理为例。以前使用符号主义方法进行常识推理是非常困难的,大模型在常识推理方面能力有一定提升,但是还很不够。众所周知,大模型经常出现“幻觉”问题。因为无论是语言模型还是多模态模型,实际上都是一种参数化的知识表达,也就是把很多不同形态的训练语料灌到大模型里,大幅提升其生成能力,使大模型拥有的知识超过地球上的每一个人。但是大模型的生成方式和思考方式,与人类智能在很多情况下存在差异,使得大模型容易产生幻觉问题,导致出错。
再如算法推理。能否让人工智能设计一些原生的算法?通过给定数据集的输入变量和输出变量,得到输入输出变量遵循的符号表达式,就是所谓“符号回归”。目前大模型解决这类符号回归问题的能力明显不足,实现高阶的科学推理的难度也明显偏大。具身推理则是智能体在三维物理环境中需要综合视觉、听觉、触觉等感知器官,分析理解空间中环境和物体的相互关系,从而制定自身行动方案的能力。机器人在物理空间上进行日常任务的运动操控时,必然需要具身推理,而目前具身大模型的空间推理能力非常薄弱。
因此,单纯的数据驱动只能构造“鹦鹉学舌”的复诵型智能体,无法实现真正的认知推理。解决推理问题的核心是建立新型的神经符号系统,通过更深入的理论研究和实践,实现大模型的高阶认知推理能力。
在实际中,算力需求庞大等关键问题,逐渐成为瓶颈。在大模型研发中,模型的性能提升和模型参数规模之间满足幂律关系,即模型规模越大,输入的训练数据越多,模型预测能力就越强。因此,有人认为只要继续扩大模型规模,就能在不远的将来实现通用人工智能。
近年来,大模型的参数规模呈现指数级增长,对智能算力的需求与日俱增,最大模型GPT-4的参数规模已经达到万亿级别,构建和运行如此大规模的智算集群,需要克服集群供电和散热等能耗难题。
与此同时,高质量和高密度数据语料库也将成为制约模型规模继续扩大的因素。众所周知,大模型的性能提升需要大量的高质量训练语料,目前语料库主要来自互联网公共领域数据的汇集。有报告指出,预计到2028年,大模型训练将耗尽所有互联网公共数据资源,大模型增长会不可避免地遭遇数据危机。为此,需要面向垂直领域,深度挖掘私域数据,扩大高质量数据共享,以支撑大模型更好地适应垂直领域的需求。
由此可见,如果研究生成式人工智能只是单纯以扩大模型规模来尝试实现绝对通用的智能模型,无论是在技术上还是在经济成本上,都不是可持续的技术路线。
产业领域的落地与赋能路径
在应用领域,生成式人工智能已经展现出了多模态、通用化的认知和交互智能等特征,在自动化文档生成、自动化编程、智能客户服务、供应链管理、产品研发、智慧教育和智慧医疗等多个领域均展现出极大优势。
构造出的神经符号系统为刻画越来越复杂的系统提供了一种潜在可行方案,但随着因素和维度越来越多,特别是人、社会以及其他对象的加入,难免导致经典理论的失效。正如著名物理学家理查德·费曼提出的费曼极限理论所指明的那样,使用简单的数学模型来描述复杂系统时会面临局限性。也就是说,神经网络试图用相对简单的函数来构造复杂的网络,模仿人类大脑将复杂的高维世界映射到低维载体的方式,这需要足够多的数据,且目前技术尚难以做到。从计算系统的角度讨论,世界上可计算问题也是有边界的,一些相当复杂的问题,以现有的技术手段是不可计算的。
因此,在垂直领域,需要走“通专结合”的技术路线,以实现大模型在产业领域的广泛落地与价值赋能。
巨无霸式的模型必然带来维护、升级、训练、成本开销等一系列的复杂难题。实际上,计算机系统中最重要的一个原则就是模块化设计。当把一个具有一定基础能力的模型应用到实际场景中时,需要通过模块化设计来实现,也就是在明确问题边界、配置所需算力的前提下,将模型的模块按照功能业务场景进行划分,其中比较大规模的模型负责完成一些基础能力,具体业务领域设置不同的中小规模模型。在这种设计中,由于各模块之间采取稀疏性的链接方式,其训练代价、管理成本都会显著下降,这本质上是通过一大簇模型生态应用解决通用复杂领域场景中的问题。相信在未来几年,这样的模型生态系统会成为通用和专用相结合领域的主流架构。
(作者系北京航空航天大学教授、国家人工智能标准总体组副组长。编辑:苏慧婷)