数据库 频道

数据是新石油,提炼新石油要遵循四个原则

数据是新石油的概念已经存在了很长时间。一般来说,这要归功于数学家Clive Humby:

数据是新的石油。像石油一样,数据是有价值的,但石油如果没有经过提炼,它就不能真正被使用。它必须被改变成气体、塑料、化学品等,以创造一个有价值的实体,推动有利可图的活动。因此,必须对数据进行分解、分析,使其具有价值。

数据是新的石油,因为数据可以被用来获得洞察。根据公司的业务,洞察可以提高客户留存率、提升销售、产生新的收入模式、广告等等。如果数据是新的石油,洞察就是新的财富。

由于计算、物联网、机器生成的数据等方面的进步,数据量现在正在爆炸式增长。因此,我们被淹没在数据石油中。我们如何防止石油火灾,或与数据有关的火灾,更准确地说,如何获得良好的洞察?

仅仅拥有数据是不够的。我们需要有一个数据实践--一套普遍理解和可持续执行的数据管理原则。为了创建一个良好的数据实践并避免发生与数据相关的火灾,组织应该注意以下四个原则:

数据来源(我的数据是从哪里来的?)

数据比比皆是,但质量参差不齐。一些数据是肮脏的(充满了错误和遗漏)。有些数据是完全错误的,还有一些是虚构的。如果依赖公共领域的数据,这一点尤其要注意。一些数据集包含偏见--如果在人工智能中使用,会给企业带来重大风险。正如麻省理工学院最近的一个项目中所概述的,有些只是包含错误。要想知道数据所产生的洞察是否有价值,甚至是否安全,对数据的来源有一个扎实的了解是至关重要的。

数据隐私(我被允许用这些数据做什么?)

随着人工智能变得越来越普遍--城市、州和国家正在实施关于如何使用消费者信息的新法律,以及消费者在使用其数据方面有哪些权利。主要的例子是美国加州的CCPA和欧盟GDPR中的 “解释权”条款。随着此类法律的增多,人类原始数据的用户需要特别注意如何使用和保护这些数据。

数据保护(如何确保我不会丢失数据?)

数据隐私是数据保护的一种形式--确保数据访问受到控制以保护隐私。数据保护的另一个重要方面是确保数据对需要它的人来说仍然可用。数据对公司越重要,数据的丢失对业务的影响就越大(比如,皮克斯因数据丢失事件而差点失去《玩具总动员2》)。

数据准备(如何从原始数据变成有用的数据?)

正如前文所述,原始数据,就像原始石油一样,并不是非常有用。要想利用数据获得洞察,就需要对其进行提炼(当以专注于人工智能的方式进行时,这一过程被称为数据准备、数据清洗或特征工程)。拥有一个好的(可复用的)数据准备策略是关键。数据准备可以使从数据中产生的洞察力的质量或从数据中训练的AI的质量有明显的不同。

以上四项原则共同构成了一个良好的数据实践的核心:

·出处。知道你的数据从哪里来

·隐私。知道数据来自谁,以及使用数据时应遵循哪些法律

·保护。不要丢失数据

·准备。知道如何提炼数据,并记住你是如何提炼数据的,以便可以一次又一次地持续这样做。

随着商业模式的发展,越来越多的公司可能会发现数据是他们最大的资产,上述原则有助于保护和发展这一资产。

作者介绍:Nisha Talagala,人工智能领域的企业家和技术专家,也是AIClub的首席执行官。

0
相关文章