将数据作为产品进行管理可以保证互操作性,促进数据和代码重用,并促进“作为产品”的方法,其中包括考虑数字产品的盈利能力。
我们将遵循的步骤如下:
1. 先决条件:数据分类和驱动程序选择
2. 调优:按功能域和计算函数分类
3. 监测与改进:行为和趋势分析以及适用措施
虽然“数据即产品”范式理论上可以分配绝对的经济价值来计算我们数字产品的盈利能力,但这非常复杂,甚至无法实现,因为它需要企业架构层之间的完全协同作用。
一、准备条件
我们将分析所有准备方面,无论是技术方面还是方法方面。
数据分类
假设已经具备了基本水平的可观察性(既用于确定成本,也用于使用),那么真正的差异化要求是方法论上的。拥有一个领域驱动的组织(不一定是网格)和一个可以为各种数据产品赋予意义的分类法至关重要。这种分类法还应分布在不同的数据产品(数据契约)中,并可能对数据治理模型(数据产品所有者)产生影响。
从这个意义上说,强烈建议使用联合建模服务来在数据架构内管理和保证这一点(无论它是否是分布式的)。
这是必要的,因为我们将使用分类法的单个元素,即实体数据(而不是单个数据产品),作为计算元素。
驱动因素的选择
其次,需要选择一个评估模型,例如来自这项工作:
从中我们可以考虑一些驱动因素:
工作量:实施成本、管道和结构的执行成本、涉及人物(数据管家、数据产品所有者)的每小时成本、可用的数据产品/输出端口的数量;
消耗:由于访问、应用程序数量、数据产品的访问次数以及相关用户数量而增加的消耗;
商业价值:数据实体的分类和使用它的应用程序的分类。
显然,每个业务环境可能会选择不同的驱动因素,但这些驱动因素似乎具有足够的不可知性,可以被视为通用的。
需要强调的是,并非所有驱动因素都是经济上可量化的,因此有必要从功能点或相关性的角度进行推理。
二、域的分类
此时,需要采取两个行动:
域识别
此操作至关重要,因为它将有助于识别异常值(见下文)。理论上,域应该来自数据治理或作为业务流程实例的企业架构组。
无论采用哪种选择,重要的是达到所有数据产品都至少具有一个业务实体并因此可在功能域中分配的程度(对于消费数据产品,会开辟一系列依赖于应用数据治理模型的场景)。
计算函数
这项活动无疑是最明显的。经过几个月对真实数据的模拟,我得出结论,没有理想的数学公式,但我们需要以渐进的方式工作,直到我们能够实现如下图所示的分布:
用的一些验证经验规则包括:
高价值实体应为记录或与核心业务相关
所有域实体都应该是可聚类的(至少占分布的 85%)
此时,你应该能够获得如下聚类结果
三、监测与改进
为了解释这些方法的好处,我从我使用的数据集中提供了一些示例:
其中,平均比率计算为(消费 + 价值):(努力)轴的平均比率(类似于数据效益指数)。在我看来,这是有道理的,参考数据通常比物联网数据更有价值。
监控与改进 — 首次运行
可以执行的分析既适用于设置阶段,也适用于重复阶段(我将仅将它们应用于“参考”域)。
未使用产品分析
230 件产品中有 140 件最初看起来未使用(消耗 + 价值等于 0)。造成这种现象的原因有多种:
未追踪IT:产品被使用,但未被追踪;
使能实体(Enabling Entity):该实体不直接使用,而是服务于其他产品,可以作为技术对象,也可以作为模型层次结构根;
异常值:超出置信范围的实体。在我们的案例中,有两个实体被错误地归因于具有异常行为的域。
过度设计的数据产品:每个产品都应该有一个成型的市场和一个巩固的用户群。在数据管理中,我们可能会有多个过度设计的产品,这些产品可以缩小或与其他产品合并。
产品实体分析
对产品/实体分配的分析表明,除了应用层的沉淀之外,多个实体被重复,没有其他真正原因。对于这些集成,可以考虑删除重复项或将其集成到正确的实体(参考域的实体)中。
非主域管理的产品
这是一个非常常见的现象(但与参考域无关),在这种情况下,也可以考虑重新分配和解雇。
应用这些规范化操作会导致以下变化:
具体来说,这些好处源于以下行动:
#实体:通过消除不相关的实体以及合并为更相关的实体来使实体合理化;
#产品:减少的主要原因是衍生产品合并到主产品中以及输出端口的合理化;
%使用率:随着未使用对象的淘汰,使用率显然会达到最大值。需要注意的是,许多技术和服务对象并没有被淘汰,而是“纳入”了相关的业务产品(从而也导致单位成本的增加);
总成本:明显减少,主要由于消除了重复和不可用的结构;
产品成本:由于支持结构的成本增加以及多种产品的统一,产品成本往往会增加。
设置和调整后的监控和修复
在初始运行以及设置和调整活动之后,需要考虑产品和实体在图表中如何随时间移动。如果没有主动管理,每个实体都可能经历两种看似相反的现象:
启用新的访问权限/用户:这既增加了其价值,也增加了部分成本。
运营和管理成本增加:由于数据量、票证和版本控制/端口的增长。
这两种现象都有一个净结果,即我们的产品或数据实体沿着努力轴移动,产生的价值成比例减少,直到达到不可执行的阈值。
这种演变可能会导致我们的实体超出域聚类的范围,从而对其产生影响。
这种聚类方法不仅可以评估绝对表现最差的产品,还可以根据需要定义的计算函数分析点衰减(例如百分比)。
两类矫正方案
旨在提高相关性的行动,例如创建新的输出端口或统一多种产品(虽然这会增加单位成本,但会降低整体经济体的总体成本)。
优化措施包括退役(例如存档历史数据)、重新架构或退役不必要的功能(例如输入和输出端口或数据契约的组件),或减少 SLA。
这两个贡献具有正的向量总和,可以提高实体的绩效,从而提高其内在盈利能力。
结论和后续步骤
这种方法无疑是可行的,因为它可以合理化信息资产,包括可量化的部分和无形的部分(产品质量、明确的所有权)。
然而,应该评估如何为每个计划分配商业利益(在企业架构框架中理论化)以及如何将模型扩展到无法应用改进措施的产品(外部产品或受监管约束管理的产品)。
建议进一步的监测行动
定期审查数据分类法和驱动程序选择:定期更新分类法和评估驱动程序,以反映业务流程和数据使用模式的变化。
利益相关者反馈循环:与关键利益相关者(包括数据管理员和产品所有者)建立反馈循环,以收集见解并对数据产品管理策略进行必要的调整。
数据民主化和与市场整合:通过民主化数据并将其与数据市场整合,促进更广泛的数据访问。这可以更好、更恰当地利用数据产品,鼓励创新,并为外部用户提供利用数据的机会,从而有可能创造新的收入来源。