数据库 频道

鉴往知来:从数据到洞察

  有人认为,数字化与信息化没有本质区别,这其实有点抬杠。在笔者看来,与信息化相比较,数字化在数据获取、数据处理、数据分析、数据展现等方面都有很大的不同。以数据分析为例,信息化时代的数据分析以基于结构化数据的描述性分析为主,而数字化时代的数据分析不仅有基于结构化数据的描述性分析、解释性分析、预测性分析、规则性分析,还有基于非结构化数据的语义分析、分类分析,等等。本文中,笔者就以鉴往知来,从数据到洞察为题,谈谈数据分析的逻辑和意义;当然,采取的也是“数字化演易”的文风,即,数据分析中因数生象,因象生意的范式。

图1:数据分析的逻辑和意义

  大体上,数据分析包含三个要点:数据、模型和洞察。数据是数据分析的“原料”或输入,模型是数据加工的“产线”或方法,洞察则是数据分析的价值或输出,而要了解数据分析的工作逻辑,则要从其意义或价值,也就是“洞察”的含义入手。

  洞察

  什么叫洞察?洞察指的是数据分析尝试要传达的意义。洞察一般有这么几种:(1)是什么(What),(2)怎么样(How),(3)为什么(Why),(4)将会如何(To be),(5)想要达成某个目的,应该如何做(If …,Then …),等等。

  “是什么”指的是给我们某些数据,期望通过数据分析来告知我们这些数据说的是什么。“是什么”型的数据分析的典型代表是基于非结构化数据的人工智能。比如,计算机视觉检测、图像识别、人脸识别、自然语言处理、文本挖掘中的语义分析,等等。

  “怎么样”指的是给我们某些数据,然后通过数据分析来告知我们何种对象(人或物)发生了什么事情,这也就是前文所讲的描述性分析。比如,商业智能中的产品销量统计分析、渠道的库销比分析、订单满足率分析、产能利用均衡性分析,等等。

  “为什么”指的是给我们某些数据,期望通过数据分析告知我们何种对象(人或物)发生了什么事情,以及为什么会发生这些事情,以及那些因素导致上述情况的发生,这也就是前文所讲的解释性分析。比如,设备的OEE分析,不仅要了解OEE的表现,还要找到OEE表现不佳的原因,等等。

  “将会如何”指的是给我们某些数据,这些数据通常是对象(人或物)的历史表现数据,期望通过数据分析告知我们这些对象的未来表现和变化趋势如何,这也就是前文所讲的预测性分析。比如,根据过去三个月的产品销量或发货量数据,来预测未来三个月的销售情况,等等。

  “If …,Then …”型的数据分析,指的是给我们某些数据,通过对这些数据的分析,如果我们期望在未来某个期间达成某个目的,应该如何做,这其实就是前文所说的规则性分析。比如,期望未来3个月的订单满足率大于95%,供需链应该如何来组织,等等。

  数据

  不同类型的洞察,所需的数据内容、数据格式、数据量,等等,也不一样。从格式的角度来看,数据分析所涉及的数据主要分为结构化数据和非结构化数据。非结构化数据的典型代表如社交媒体的流数据、文本、图片、视频,等等。

  结构化数据主要来自于ERP、MES等交易处理(OLTP)系统。从变化的频率等特点来看,结构化数据又可分为相对静态的元数据和主数据(元数据是用于描述主数据属性的数据),以及相对动态的交易数据。

  在数据分析中,主数据又称为维度数据,用于描述业务对象、空间、时间,等等,其典型代表如业务伙伴(供应商或客户)、产品组、产品、组织架构、区域,以及时间上的日、周、月、季、年,等等。维度数据要能按层次来组织,以便进行数据分析时自上而下的分解和自下而上的汇总。

  交易数据又称为指标数据或关键值,用于描述业务对象在某个时空场(时间和空间)的变化情况,其典型代表如客户订单量、库存量、发运量、销量、采购量、销售价格、制造成本,等等。

  除了上面从格式和内容等角度来定义和区分数据,还有所谓数据的4V特点,即,大量(Volume)、高速(Velocity)、多样(Variety)和价值(Value),其中,前三个V其实指的是数据的存量、生成数据和类型,而所谓的价值其实就是指数据分析的输出——洞察。大数据的4V特点,其实只是一种概括性描述,对我们理解数据分析的规律和逻辑没有太大的帮助。

  为了便于数据的清晰、汇总、聚合和重复使用,企业必须以相应的办法来管理数据。对于结构化数据,常用的是数据仓库;对于非结构化数据,常用的是数据湖。数据仓库和数据湖可以通过数据接口进行整合而形成数据总线。

  模型

  从数据到洞察的转化,其过程不是必然的,而是需要借助相应的模型或算法来实现。我们可以用下面的函数式来代表数据分析所用到的模型或算法:

  A = f(x,y,z,…)

  在上述函数式中,x,y,z,等等,代表的是数据分析的输入或自变量,也就是已有的数据;A代表的是数据分析的输出或因变量,也就是上文所说的洞察。通过上述函数式,我们还可以得到这么几个初步结论:

  (1)数据分析所需的数据永远做不到充分必要,据此所得出的洞察也只是概率上的可能性。以销售预测为例,影响某个产品未来销量的因素太多,企业不可能准确、及时、完整地获得这些变量的相关数量,据此得出的销量预测也不可能100%的准确。尤其是,外部影响因素越多,相关数据就越难获得,故而,企业内部某个设备的故障预测要比产品销量预测要容易做得多。

  (2)不同形式的洞察,其所用到的模型或算法是不一样的。通常,预测性数据分析要用到线性回顾、指数平滑等统计性模型或算法,文本挖掘、图像识别等认知性数据分析则需要用聚类算法、簇类分析或决策树算法,等等。

  (3)数学是数据分析的指导,哲学是数据科学的指导。除了数据质量,所采取的算法和模型,将决定数据分析的质量,因此,高级的数据分析需要有数据科学家作指导。如果进一步来看,不管如何尽力,我们不可能掌握所有的真相,这就需要以哲学作指导。比如,佛家的因缘学说,把事物发展变化的因缘分为亲因缘、增上缘、所缘缘和等无间缘,等等,这些认识可用于数据分析中的因果溯源,有助于提高洞察的概率。

  结语

  我们通常说21世纪是VUCA时代,即,易变(Volatility)、不确定(Uncertainty)、复杂(Complexity)和模糊(Ambiguity)。为了提高企业或个体在VUCA时代的确定性、方向性、有序性和可把握性,就离不开数据分析的作用,而理解、剖析数据分析的逻辑和范式,则是每一个从业人员的必修课。如果要用几个字来概括数据分析的逻辑,那就是:因数生象,因象生意。

0
相关文章