在数据与AI深度融合的今天,技术正以前所未有的速度重塑产业逻辑,AI正掀起一场革命。
天云数据CEO 雷涛
天云数据CEO雷涛作为深耕数据智能领域的“老兵”,从Java时代到大数据、机器学习再到大模型浪潮,见证并参与了数据智能技术的多次跃迁。本期《名人堂——“数”风流人物》栏目对话雷涛,他深入剖析了AI发展过程中数据表达的三次升级,并结合能源、安全等领域的落地案例,揭示AI如何深入产业带来价值。
数据表达的三次革命:从“代码”到“权重”再到“激励”
雷涛认为,数据并非一成不变的物理资源,而是随着算法升级不断转换形态的动态存在。从信息化到智能化,数据的表达经历了三次关键升级,每一次都推动着产业变革。
1. 代码(Code):软件时代的“数据翻译”
在传统软件和机器学习早期,数据的核心表达形式是“代码”。无论Java逻辑、SQL语句或存储过程等,本质上都是人类将自身对数据的理解“翻译”成机器可执行的语言,让物理世界的信息实现数字化。
比如,从传统的文件到数据库、数据系统,数据的处理呈现需要多种软件协同,通过SQL处理表之间的关系。即便在机器学习的早期,数据的处理也是依赖于特征工程,这一阶段是人类思维主导,从结构化数据中提取规律,服务于报表生成、管理驾驶舱等人类决策场景。
不过代码的局限性也很明显,它更多是处理共性、标准化的逻辑,对个性化、碎片化的需求难以满足。例如,工厂里每个工人的操作习惯、每次设备故障的细微差异,都难以被硬编码的规则覆盖。
2. 权重(Weights):大模型时代的“隐式表达”
随着大模型技术的兴起,数据表达进入“权重”阶段。此时,数据不再以表、字段等显性形式存在,而是转化为神经网络中的“权重”,这是一次数据表达方式的升级,通过梯度收敛为token间的关系权重(参数空间),实现对数据的“隐式表达”。
“大模型本身也是数据,只不过是数据的另一种表达方法,数据被隐式表达到了大模型的权重里。”雷涛强调,这种表达革命带来了两个关键突破:
·跨模态融合:文本、视觉、音视频、空间等不同类型的数据,通过统一的编码器对齐到同一神经网络,能够进行跨模态数据处理,实现“文本里隐含的知识与视觉体验对齐”,深入产业流程中带来智能升级,例如,视觉影像的信息与文本描述的安全规范,能在同一模型中形成协同理解,指导员工安全操作。
·通识能力:数据不再局限于单一场景的规律,而是能泛化到多种任务。比如,能源行业的历史检修手册不再仅是检索素材,而是能够生成指导新工况下的动态任务规划。
3. 激励(Rewards):强化学习时代的“探索式进化”
当前,数据表达正迈向“激励”阶段,以强化学习为核心,强化学习不断演进,从早期的人类反馈强化,到引入可验证的人类高级知识,再到过程稠密,通过“错误修正”和“探索奖励”实现数据的动态优化。这一阶段不再追求“绝对正确”,而是鼓励“多样性错误”,通过激励评价机制将“错误”引导向正确方向。
整体来看,权重阶段更多是学习模仿,强化学习强调启发式探索。激励机制引入了主观评价的“无限资源”来修正客观事件,尽可能少量试错,通过对中间过程的稠密化评估(如机器投票、策略比对等),让模型从错误中学习。
“鹦鹉只能模仿,而乌鸦能探索,强化学习激励就是让AI从‘鹦鹉’进化为‘乌鸦’。” 雷涛用生动的比喻解释,权重阶段做得再好,只能在已有世界里做鹦鹉,而不能够在新世界里像乌鸦一样,可以通过少量错误就能够找到答案,其核心在于强化学习的逐步升级。
强化学习会使用现有数据,也会结合策略和外部环境生产合成数据。这与以前的仿真不同,仿真是按照一个固定的脚本逻辑去做,追求确定性,合成是发散型的,追求的是新奇性、多样性,能打开无限的可能,带来更多的创新。
例如,在自动驾驶场景中,极端天气、路面破损等罕见事件难以通过真实采集获得数据,却可通过AI生成“小概率但可能发生”的合成数据。结合激励机制,模型能从这些合成数据的“错误尝试”中,掌握应对未知场景的能力。
落地实践:AI的本质是知识的封装转移
技术的发展带来了人与机器交互的升级以及服务对象的变化,软件时代以UI的形式呈现给人类做决策支持,互联网推荐引擎时代变成调用API,Agentic AI时代,Agent成为了新的API,可以自动地分解任务、执行任务。
“就像我们以前说蒸汽机是对动力的封装和移动,电是对能源的封装和移动,这一波AI是对知识的封装和移动。”雷涛说。
技术的价值最终要回归产业,以前在软件时代或者机器学习早期,知识的封装需要依赖开发人员,如果让IT为个性化、碎片化的流程写代码,会导致ROI不高,无法落地或者难以实现规模化。如今大模型、Agent通过任务规划,可以自己编码,生成一个工作流,生成表单,以更加智能的方式实现降本增效。
雷涛结合天云数据在能源、安全监控等领域的项目,展示了AI如何从简单的“对话式交互”走向“流程级重构”的智能升级。
比如,在能源行业,AI的应用早已超越简单的“问答检索”,深入到生产流程的核心环节。某大型电厂的大修项目中,涉及上千人团队,工期长达半年至一年,通过AI将数千份历史检修手册、策划书等静态文档变为可以生成作业方案的专家助手。
“传统上,大修的先后次序、工种协调靠人工规划或传统的算法,而现在大模型能基于历史知识生成动态任务。” 雷涛介绍,模型会提取手册中的核心要素(如工期、工种限制),结合实时工况(如设备状态、生产需求),自动生成轮班计划、派工单,并同步到SOP系统中。
而在安全监控领域,也充分体现了“权重”阶段跨模态融合的价值。传统摄像头仅能做信号处理(如人脸识别、车牌识别),比如早期的卷积神经网络,处理的是视觉的局部信息,对员工的一些操作或动作容易错判、误判,而结合多模态大模型后,普通摄像头变成了“懂规则的安全员”。
例如,在某电力巡检场景中,系统将电力安全规程的PDF文档输入多模态模型,模型会自动解析上万个风险点并进行风险分级。当摄像头捕捉到工人“跨越高压区软绳”的动作时,即使绳体纤细、像素模糊,无法单纯从视觉上很好识别,模型也能通过“弯腰、抬膝盖”的连续动作逻辑,结合安全手册中的“高压区禁止进入”规则,瞬间识别风险并触发告警。
还有上线的“随手拍”功能,管理人员在巡检过程中,拍摄现场照片后,模型会秒级生成报告,比如,指出“管道未贴介质流向标识”“物料堆放问题” 等隐患,这些判断均来自对安全手册的深度理解,而非简单的图像比对。
在更多的领域,合成数据正成为突破数据瓶颈的关键。例如,在设备维护中,AI能够基于装备手册生成“跨场景操作指南”,覆盖手册未明确但可能发生的故障;营销场景中,通过开源数据集(如,包含程序员、理发师、老人、青年、小孩等多社会身份的数据集)里的数据生成多样化用户画像,结合关联数据实现千人千面的营销方案。
“合成数据不是假数据,而是‘未被记录的客观存在’。”雷涛强调,结合激励机制,这些数据能让模型在有限样本下实现高效学习,正如特斯拉通过AI生成极端天气驾驶数据,让自动驾驶系统在未经历过的场景中依然可靠,强化学习在产业里也将带来更大的价值。未来竞争力不在于“拥有多少数据”,而在于“让数据以更高效的形式与算法协同”。
小结:数据与AI的“共生进化”
在产业端,AI的价值已清晰可见,AI能够封装企业沉淀的知识(如规章制度、应急预案),并将其转化为自动化流程,通过动态规划覆盖碎片化需求,降低成本。AI也能够联动多模态数据,让摄像头等设备“读懂”产业逻辑,指导业务工作。
雷涛指出,强化学习激励正打开新的无限可能,AI从早期的支持向量机,到CNN、GNN等深度学习网络,到现在的Transformer大模型架构,当调优以后的确定性存在了,就会发生熵崩溃,不确定性是一个更大的空间,激励是用熵来交换不确定性的过程,智能化的升级刚刚开始,“我们正经历从‘鹦鹉’到‘乌鸦’的升级,后训练阶段的强化学习是升级过程非常核心的一步。”