数据库 频道

反映数据质量的八个指标

数据的质量直接影响着数据的价值,并且还影响着数据分析的结果以及我们依此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响企业的经营管理决策;数据错误还不如没有数据,因为没有数据时,我们会基于经验和常识做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是治理企业经营管理数据的关键所在。

数据的质量可以从八个指标进行衡量,每个指标都从一个侧面反映了数据的品相。这八个指标分别是:准确性、及时性、即时性、真实性、精确性、完整性、全面性和关联性。

我们在比较两个数据集的品相的时候,往往采用如下图所示的这种图形表示。

例如常规来讲,内部数据集的准确性、真实性、完整性高,而全面性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重视程度以及采集数据的技术手段;而外部数据集,如微博数据、互联网媒体数据等,其全面性、及时性和即时性都可以通过技术手段如网络爬虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控制,而关联性取决于数据采集和挖掘的相关技术。

我们也可以用这个模型来衡量公司内部各个职能部门数据的品相。如下图所示,通过评价数据质量的8个指标,可以有针对性地采取相应的措施提高企业的数据质量。

1、数据的准确性

数据的准确性(Accuracy)是指数据的采集值或者观测值与真实值之间的接近程度,也叫误差值,误差值越大,数据的准确度越低。数据的准确性由数据的采集方法决定的。

2、数据的精确性

数据的精确性(Precision)是指对同一对象在重复测量时所得到的不同观测数据之间的接近程度。精确性,也叫精准性。精确性与数据采集的精度有关系。精度越高,要求数据采集的粒度越细,误差的容忍程度也越低。

例如在测量人的身高时,可以精确到厘米,多次测量的误差只会在厘米级别;在测量北京到上海的距离时,可以精确到千米,多次测量结果之间的误差会在千米级别;用游标卡尺测量一个零件的厚度时,可以精确到1/50毫米,多次测量结果之间的误差也只会在1/50毫米级别。因此可以说采用的测量方法和手段直接影响着数据的精确性。

3、数据的真实性

数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取决于数据采集过程的可控程度。数据采集过程可控程度高,可追溯情况好,数据的真实性就容易得到保障,而可控程度低或者无法追溯,则数据的真实性难以保证。

为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集的数据的真实性,减少人为干预,减少数据造假,从而让数据更加正确地反映客观事物。

4、数据的及时性

数据的及时性(In-time)是指数据能否在需要的时候得到保证。例如公司在月初会对上个月的经营和管理数据进行统计和汇总,此时的数据及时性是指这些数据能否及时处理完成,财务能否在月度关账后及时核算。数据的及时性是数据分析和挖掘及时性的保障。如果公司的财务核算复杂,核算速度缓慢,上个月的数据在月中才能统计汇总完成,等需要调整财务策略的时候,已经到月底了,一个月已经快过完了,特别是当公司做大了之后,业务覆盖多个市场、多个国家,数据不能及时汇总,则会影响到高层决策的及时程度。

数据的及时性与企业的数据处理速度及效率有直接的关系,为了提高数据的及时性,越来越多的公司采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,在数据上传到系统中之后自动完成绝大部分报表,从而提高了数据处理的效率。计算机自动处理中间层数据是提高企业数据处理效率的有效手段。

企业除要保证数据采集的及时性和数据处理的效率外,还需要从制度和流程上保证数据传输的及时性。数据报表制作完成后,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间中。

5、数据的即时性

数据的即时性是指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据的即时性就稍差。

例如一个生产设备的仪表即时反映着设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作是即时数据。而当将设备的即时运行数据存储下来,用来分析设备的运行状况与设备寿命的关系时,这些数据就成了历史数据。

6、数据的完整性

数据的完整性是指数据采集的程度,即应采集的数据和实际采集到的数据之间的比例。例如在采集员工信息数据时,要求填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间共12项信息,而某个员工仅仅填写了部分信息,如只填写了其中的5项,则该员工所填写数据的完整性只有一半。

一家企业中的数据的完整性体现着这家企业对数据的重视程度。要求采集的数据而实际上并未完整采集,这就是不完整的数据,这往往是企业对数据采集质量要求不到位导致的。

另外,对于动态数据,可以从时间轴去衡量数据的完整性。比如,企业要求每小时采集一次数据,每天应该形成24个数据点,记录为24条数据,但是如果只记录了20次,那么这个数据也是不完整的。

7、数据的全面性

数据的全面性和完整性不同,完整性衡量的是应采集的数据和实际采集到的数据的差异。而数据全面性指的是数据采集点的遗漏情况。例如,我们要采集员工行为数据,而只采集了员工上班打卡和下班打卡的数据,上班时间员工的行为数据并未采集,或者没有找到合适的方法来采集,那么这个数据集就是不全面的。

再例如,我们记录一个客户的交易数据,如果只采集了客户订单中的产品、订单中产品的价格和数量,而没有采集客户的收货地址、采购时间,则这个数据采集就是不全面的。

腾讯QQ和微信的用户数据记录了客户的交流沟通数据;阿里巴巴和京东的用户数据记录了用户的购买交易数据;百度地图记录了用户的出行数据;大众点评和美团记录了客户的餐饮娱乐数据。对全面描述一个人的生活来说,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据。所以说,数据的全面性是一个相对的概念。过度追求数据的全面性是不现实的。

8、数据的关联性

数据的关联性是指各个数据集之间的关联关系。例如员工工资数据和员工绩效 考核数据是通过员工关联在一起来的,而且绩效数据直接关系到工资的多少。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来。

企业大数据中,每个数据集都是相互关联的,有的是直接关联的,如员工工资数据和员工绩效数据,有的是间接关联的,如物料采购订单数据与员工工资数据。这些数据的关联关系是由公司的资源,包括人、财、物和信息等连接起来的。如果有任何的数据集不能连接到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业数据关联性不足导致的。而数据的关联性直接影响到企业数据集的价值。

-本文节选自-《企业数据分析》;作者:赵兴峰

0
相关文章