数据库 频道

如何正确理解「指标」和「标签」

一、前言

有朋友问我,什么是指标,什么是标签,最本质的区别在哪?如何识别?不问我,我觉得我比较清晰的,好像很明确,但是被人一问,我觉得我又不清晰了,所以重新学习了一遍,把学习过笔记分享给大家,希望对大家有帮忙和启发。

二、指标理解

1.指标是说明总体综合数量特征的概念,所有指标能用数值来表示,一个完整的统计指标,一定要讲时间、地点、范围(百度);

2.指标的评价较易量化,通常有一定的标准和尺度;

3.指标是生产性思维、拆解式思维,讲究的是化整为零,将事物分解开来进行多角度的描述,得到很多的指标;

4.指标最擅长的应用是监测、分析、评价和建模;

5.指标是业务管理导向的,需要提前规划,应用场景很多,战略目标、市场定位、业务监测、业绩考核、任务分解、数据分析、数据建模、BI应用等。

三、标签理解

1. 标签是对象的属性,颗粒度到字段级“标签”则是指从原始数据清洗加工而来,能够为业务所用并产生价值的数据资源,一般都需要结构化到字段粒度,保障服务化使用。(标签类目体系)

2. 标签是合成性思维、聚合式思维,讲究的是化零为整,将多个分散的指标按照一定的原理进行综合加工,得出概括性的结果;

3. 标签经常也被称呼为属性、特征、指标、参数等;

4. 指标是半成品,标签是成品,标签是指标进一步产品化的结果;

5. 标签面向数据应用端,解答的是“数据怎么用”“数据的价值是什么”的问题;

6. 标签是资源,是资产,可定价、可售卖、可交易的一种数据产品;

8. 标签是应用导向的,跟随业务需求的而变化,随时增加;

9. 标签最擅长的应用是标注、刻画、分类和特征提取;

10. 标签主要应用在客户分群、画像、触客、获客、黏客、续客、数据建模、数据可视化等;

11. 标签的评价一般与使用者的感受、应用的结果有强关联关系,不同的人、不同的应用场景,标签能发挥的效果可能大相径庭。

四、标签分层

1. 理解根目录、标签类目、标签、标签值四者的区别和联系,对标签体系就比较清晰了。下面是保险资产层级思考,可以对应数据中台架构设计思考。

2. 根目录指向标签所属的对象:根目录往往是一种较为模糊、宽泛、简单的名词或动名词,例如用户、购房者、酒店、浏览(记录)、交易(记录)、报修(记录)。按照数据思维,世上的一切事物都可以归为人、物、关系三类对象,因此一个用来指向某个对象的词(名词指向人、物,动名词指向关系)都不应该是标签,往往是标签根目录。在数据物理层面往往映射为某张大宽表中的主键,这张大宽表中的信息都是对该主键对象的详细刻画和数据记录:大宽表的列即映射为标签,大宽表的行记录则对应于具体的对象在各标签属性上的具体属性值记录。

3.类目是对标签的分类:客户标签可以分类为基本信息、地理位置、社交关系等,这些分类名也是类目名。类目往往由名词构成。一个类目及其所归类的标签在数据物理层面可以和某张具体表对应,例如“客户”对象的【基本信息】类目下,有“性别”“年龄”“籍贯”等多个标签,一般对应于客户数据库中的一张客户基本信息表,该表中会有“性别”“年龄”“籍贯”等多个字段。

4. 标签是对象的属性,颗粒度到字段级:“客户姓名”“客户电话”“客户居住地址”等字段粒度的属性就是“客户”对象的标签。标签往往由前后两个名词构成,前一个名词作为对象定语修饰后一个名词。标签一般对应于某数据库中某张数据表中的某字段。

5. 标签值是对象属性的具体取值:例如【小明】【小红】是“客户姓名”标签的标签值,【男】【女】是“性别”标签的标签值。标签值往往是形容词、名词或数字,一般对应于数据库中某张数据表中的某字段取值。标签值的取值类型可以是数值型、文本型、日期型、Key-value型,但主要为数值型。数值型中又分可枚举的离散值和不可枚举的连续值。

五、标签的分类

标签的分类是为应用服务的,大家可以按需添加。

1. 按照标签的变化性分为静态标签和动态标签;

2. 按照标签的指代和评估指标的不同,可分为定性标签和定量标签;

3. 按照标签资产分级分层的方式,可以分为一级标签、二级标签、三级标签等,每一个层级的标签相当于一个业务维度的切面,符合MECE原则。

5. 按照复杂程度分为:事实标签、规则标签和模型标签。事实标签通常是写实的,与指标有较高的重合度,

6. 比如性别,年龄等;规则标签一般是有一些简单的规则来控制,符合某种规则时才生成相应的标签;模型标签一般需要通过某些机器学习算法来生成。

六、结论

标签是对象的属性,一般到字段粒度,面向数据应用端,是资源,是资产,可定价、可售卖、可交易的一种数据产品,包含属性、特征、指标、参数等;

指标是可量化的,用数值表示的字段,面向业务管理,需要提前规划,擅长的应用是监测、分析、评价和建模;

2
相关文章