首页>《能源评论》>《能源评论》2023年第3期

百度:让“文心”与电网更好交互

发布时间:2023-03-24
百度:让“文心”与电网更好交互

/忻舟 

  日前,国网信通产业集团国电通成为百度“文心一言”(ERNIE Bot)首批生态合作伙伴,大语言模型和电网行业互动更进一步。文心一言作为一款类ChatGPT的产品,具有跨语言和模态的深度语义理解能力,要了解"文心"的实力,我们就需要从理解ChatGPT的工作原理开始。 

  从原理上来说,ChatGPT相对于上一代技术GPT-3.5,不是在底层技术上的创新,而是基于GPT-3.5的优化应用。优化的重点在于引入对话能力,由此不管是非IT行业从业者还是普通人,都可以轻松使用。这对于研发和创新的意义就在于:技术不能 只局限在实验室,要开发适宜各种类用户群体使用的产品,并不断反馈修正,才能焕发出创新的活力。 

  “注入”电力知识,“激发”大语言模型 

  ChatGPT本质上是一个大语言模型。语言模型的主要任务是判断一句话是否通顺,是否符合人类的语言习惯。语言模型当前最主要的应用是生成,但生成的内容并不是固定结果,输入一段话可以生成任何东西,优秀的模型可以生成较符合人类认知的结果,质量稍差的模型输出的结果就显得杂乱无章。随着训练数据中高质量数据的逐渐增加,内容生成的效果也进一步上升。目前还观察不到现有模型的上限,在模型生成结果中出现了涌现的情况。 

  过去的自然语言处理和机器翻译隔行如隔山,业内研讨时也基本上互相听不懂,只能自说自话。但有了大语言模型以后,几乎所有的自然语言处理任务,都可以转换成语言模型来解决。 

  模型训练的基础数据来自互联网以及其他方式整理的无监督数据。数据的呈现形式就是一句一句的话。模型要实现的就是通过特定方式,比如自回归、完形填空等,让输出结果拟合原始的数据。原始的语料是一句话,自回归就是通过前文输出原话,完形填空就是抹去部分词语。 

  大语言模型的参数量非常大,在近几年发生了千倍甚至万倍的增长,达到了千亿数量级。人的神经细胞大概是百亿级别,谷歌的PaLM模型参数甚至达到了5400亿。 

  在参数规模大到一定程度后,大语言模型产生了涌现的情况。在语言模型发展的过程中,OpenAI提出了指令学习。指令学习就是在网上无监督、自监督的原始语料中,加入了人工精标的数据与指令。这种方法在人工智能训练应用后发现,大语言模型能将特定的任务完成得非常好。当数据增加到一定程度后,模型会产生泛化能力,过去没有专门训练过的新东西,它也能学到,这叫作“激发”。学术界对激发现象的分析解释是,这些知识已经存在于模型自身千亿级的参数里面,只不过缺乏特定的方法教它怎样使用,只需要万级别的数据标注,就可以把模型的相关能力激发出来。新加入的标注数据,相对量非常少,但可以模型帮助完成特定任务,实现较好的输出结果。 

  另一个重要概念是“注入”。OpenAI的模型学习了GitHub平台上190GB的代码,作为语言语料输入模型进行自回归。因为代码是比较抽象的、高度提炼的、有逻辑性的组合数据,模型学到了代码的内在逻辑,虽然“学”的机理尚不明确,但是模型逻辑推理能力以及长距离依赖的能力变强了,这一特性被称为“注入”。“注入”的过程赋予了模型特定的能力。给模型中注入了代码能力后,再“教”它一些特定领域的代码,就可能大幅提升模型复写特定领域代码的能力。类比电力行业,需要注入的数据就是电力系统的调度指令或是知识图谱。基础模型相当于完成了“九年义务教育”,在注入调度指令和知识图谱后,就等同于实现了“岗前培训”。 

  “注入”和“激发”的特性最能影响类ChatGPT技术在电网系统中的落地和应用。如果可以获取并使用电力语料进行注入,让模型拥有电力基础知识,再经过少量精心标注的数据进行预训练,模型就可能产生处理电力系统特定任务的能力。 

  “文心”与电网新方向 

  百度的文心大模型目前已经更新到了3.0版本,内置2600亿的参数,与GPT-3的技术思路总体类似,但也有自身的创新。理解的神经网络和生成的神经网络共享部分语义参数,模型本身就同时具备理解和生成的能力。在构建高质量训练数据时,文心大模型引入了很多知识,例如百度的通用知识图谱、百度自有的搜索数据。使用这些高质量的知识和数据进行训练,就可以实现比通用文本训练更好的效果。此外,文心大模型还有很多其他技术的创新,在中文语言环境中呈现的效果要强于GPT-3.5。 

  2022年,国网智能电网研究院和百度一起发布了“国网·百度·文心大模型”。由于时间有限,训练的资源有限,当时的模型参数不到10亿。训练数据主体来源分为三个部分,第一部分是百度通用数据,第二部分是从互联网专门挖掘的电力领域数据,第三部分是由国网智能电网研究院提供的专业数据。尽管当时的模型参数不到10亿,但通过在电网特定任务上进行微调,通用模型在电力领域的应用能力得到了显著提升。随着双方合作深入,参数量、数据量、计算量将不断提升,再加上高质量的标注,相关任务应该会取得较好效果。 

  文心大模型将持续聚焦于实现图像、文本数据瓶颈突破和场景算法适应性调整两个方面,以更好地与电网系统加深合作。 

  未来大模型的发展方向,一个是行动驱动大语言模型,这在工业界和学术界都有较高的关注度。行动驱动就是要给予语言模型做事的能力,单独的语言模型解决的只是语言的问题,如果给其加上API(Application Programming Interface,应用程序编程接口),就可以使用工具解决专业问题,用得到的数据进一步训练模型,其能力就可以得到进一步拓展。以计算自然数加减乘除为例,业内曾经进行过实验,模型规模达到1000亿参数的时候,大语言模型才能完成两位数的加减乘除计算。如果配上计算器的API,它就可以很轻松地完成更高位数的加减乘除。这一研究方向已经用在搜索领域,是一个很值得研究的发展方向。 

  另一个方向是多模态融合。物理世界的信息是多模态的,除了文本以外还有图像、声音、气候等。如果能够对非文本等信息进行分析理解,转化成数据集,并将多模态的信息融合起来,就有机会得到一个泛用性更强、更能够解决实际问题的大模型。 

  让应用与模型更好交互 

  大语言模型与电网之间的合作链条打通还有一个关键环节——数据脱敏。数据属于企业的核心资产,特别是一些行业的数据保密级别很高,而且也存在相关法律法规的限制。 

  百度的“厂长”李彦宏在内部研讨时曾经表示,希望百度的AI技术能给社会、给产业带来更多实际的价值。具体而言,就是以对百度和用户都安全的方式,让百度积累的技术包括数据以特定方式为用户服务、发挥价值。虽然目前还存在各式各样的问题,但合作双方可以通过协议或者加密的方式,去探索在数据隔离情况下使用大模型的方式。 

  电力从业人员尤其是老一代电力从业者的经验非常丰富,很多知识成为其“肌肉记忆”。经验本身是一种知识组成,但经验也会在一定程度上局限创新能力。这种“肌肉记忆”让他们对新技术提出的新方案产生了一定的排斥心理。且由于人机交互不够友好,表达逻辑不清晰,面对新技术给出的正确答案,这些从业者容易认为生成结果不可信。这也说明,数据模型也许技术上领先,但要实现专业领域的应用,还需深入了解相关领域、充分掌握行业知识。 

  此前电网系统与自然语言处理大模型有过合作,后续还需要加强深度合作。相信在中文语言环境下,用中国人自己的框架,用好文心大模型的核心技术,合作双方相向而行,会让电网主设备的知识服务引擎能力再上一个台阶。 

  对电网企业而言,需要理解大模型的运行逻辑,同时能将业务抽象化,找到行业应用与数据模型交互的问题,帮助模型构造桥梁理解电网系统。要避免经验影响创新能力提升,需要推行新的激励措施:一方面要从企业文化层面去鼓励创新试错、打破范例;另外一方面也要鼓励员工找到问题,找到能把业务抽象成当前最新技术可以解决的模式和桥梁,并对提出这样好问题的员工给予激励。