数据库 频道

人人都想做模型而非数据工作,这很危险

最近有篇谷歌的文章《谷歌团队警告:人人都想做模型而非数据工作》,谈到了数据质量对下游的巨大影响,尤其是癌症检测、野生动物偷猎和贷款分配等预测任务上,并由此引出矛盾:“一贯被视为无足轻重的数据,其影响从未被真正了解过”。

谷歌这里提到的从事数据工作的人,应指满足数据供给并提供数据质量保障的人,包括数据采集、处理、稽核、运维和数据质量管理等岗位,关于这点我是有共鸣的,为了描述方便,以下统称为数据工作者。

可惜这篇文章只是讲了数据质量对AI应用的影响,并没有点出这现象背后的深层次原因,也就是why,考虑到这个问题在整个数据行业普遍存在,今天就尝试谈谈这个问题的本质,即为什么数据质量如此重要,却不被重视?为什么大家都不想从事数据质量相关的工作,个个都想去做模型?

1、错识生态位置

大数据时代到来后,数据往往被类比成石油,但大家都知道,石油在整个供应链中处于底端,而基于石油打造的各类产品才处于生态价值链的顶端,赚取了最高的利润。

石油加工(含开采、炼油等等)是较为低端的工作,研究石油发动机的工程师则要高端的多,同理,数据加工(含数据采集和数据质量等等)是低端的工作,搞数据建模的工程师则要高端的多。

可惜做一个事情的真正价值,不是由生态链所处的位置唯一决定的,还包括稀缺性,从这个角度看,数据工作者不像是石油加工者,倒更像是光刻机制造者。

没有光刻机的设备,高端芯片就无法生产,进而影响到所有电子产品的生态,光刻机是稀缺的,有价无市,同样,一个企业的数据工作者也是稀缺的,其稀缺性体现在两个方面:

第一、数据质量带有深深的企业烙印,只有对这个企业的组织、机制、流程、业务和系统有深刻认知的数据工作者才最有可能做好数据质量,这种人才具有稀缺性,比如你找别家的数据工作者短期内解决不了你家的数据质量问题。

第二、“数据”这一新型要素对其他要素有效率的倍增作用,数据质量提升带来的增量价值往往远超模型算法调优带来的增量价值,数据>算法是行业的共识。

所以造成认知上的错位,也许在于企业中低垂的数据果实还没有摘完而已,大家习惯于享用现成的高质量的数据,一旦数字化转型加快,对于数据的使用覆盖度和深度加强,数据质量问题就会凸显,谷歌团队发出这种警告,也许是因为AI应用正在高速普及,数据质量问题开始集中暴露。

2、数据过于复杂

即使我们认识到数据工作的巨大价值,但解决数据问题涉及企业的组织、机制、流程、文化等各个方面,远不是建模那么纯粹(虽然我不认为建模纯粹,但相比于数据问题解决的复杂性,那也是小巫见大巫):

第一、很多数据质量问题由源系统造成,但一旦涉及到跨组织的问题协调,往往需要建立公司级的数据治理组织和机制来保障,数据团队一般推不动,索性躺倒,深层次的数据质量问题解决周期往往以月甚至年来计。

第二、很多数据问题的解决受限于数据团队的业务敏感性,比如业务方发现了一个数据问题,但数据团队并未意识到解决这个问题的商机,没有安排足够的资源去解决,最终业务失去信心转去其他的方向,数据团队则失去了一个提升数据质量的机会。

比如我们以前在做某款商业洞察产品时,产品经理发现某标签的准确性对于客户特别重要,但当时数据团队没太关注,这导致损失了不少潜在客户。

数据中台相对于数据仓库最大的不同,就是解决数据问题要以业务为导向,不求全责备,但一定要价值导向。

第三、很多数据质量问题的解决有个过程,少则1年,多则5年,但大多人坚持不了这么久,比如针对位置和上网数据质量提升,我们团队就坚持做了5年,现在规模变现才发现那些年做的事情太有价值,很多商业产品在市场上的成功,实际就是数据质量的胜利。

老板说,要坚持做正确而难的事,很多基础性工作就是这个性质,但少有人能坚持吧。

科学界一直在提基础研究的落后,但这种落后在任何一个行业企业都在以某种形式呈现,比如在数据领域,数据质量工作就是最基础的工作,但现在从事这些基础数据工作的人可不多。

大家都在喊数字化转型,但在转型之前,得想清楚自己的企业有几个数据工作者在做真正的最基础的数据工作,如果没有这个金字塔地基的存在,数字化转型就如同空中楼阁,一捅就破。

3、普及水平有限

现在学校能教的数据技能,除了一点理论知识,就数算法和开发了,数据治理等知识不是不能教,而在于实验室难以提供较为真实的数据环境,实验室提供的那点样本数据,不足以反应现实世界获取数据的复杂性,温室里是走不出数据治理专家的。

每次有大学实习生到公司来实习,我们也习惯于为其准备一个短频快的建模课题,而建模所需要的数据是我们处理好后“喂给”他们的,实习生以为的数据处理就是在建模过程中做做缺失值处理啥的,但这在整个企业的数据质量管理体系中不值一提,而学校,机构培训出来的数据从业者可能以为这就是数据处理的全部了。

数据质量的工程特性明显,显然是很难发论文的,学校大概率是不会设置什么数据质量管理专业的,这意味数据相关专业毕业的学生很难对数据会有什么认知,毕业的大学生都趋之若鹜的去应聘算法、开发等岗位,企业招聘的大都也是算法、开发相关岗位,这些都跟数据质量无关。

以算法、开发岗位名义招聘进去的学生实际可能干的就是数据质量工作,这造成了新人的落差,觉得干数据质量工作枯燥乏味,影响自己职业发展,这是数据工作者不被重视的一个深层次原因。

4、形成岗位鄙视

相较于产品经理、算法工程师、数据分析师、开发工程师等岗位,数据工作者被看成是数据职场的低端“码农”,鄙视链早就形成,大致有以下原因。

第一、在职场上,离领导越近就越接近“食物链”的顶端,数据工作者做的是最基础的工作,属于苦活、累活、脏活,其工作的内涵很难为他人所理解。

产品经理每天想得是被人关注,因为被人关注就意味着重要,数据工作者则是反过来的,被人关注意味着可能的严重的数据质量事故。

数据工作者的最大业绩却是让别人忘记自己,即努力杜绝一切数据质量问题的发生,但具有讽刺意味的是,没有发生过数据质量事故的数据工作者很难得到重视。

第二、很多人有技术情节,心里有这么一个公式:技术水平高=价值创造高=自身发展快,相对于其他数据岗位,数据质量等岗位的技术含量不高。

在数据质量处理过程中,比如解决数据的一致性、准确性、及时性等问题,通过管理手段的优化往往是优先级最高的解决方式,即使要用技术手段来解决,技术的先进与否也大多不是关键,很多人不屑于去做技术密度低的数据工作。

第三、数据工作的水平高低很难进行比较,不要说行业间的,即使是同一行业也难有统一的衡量指标,数据工作者的业绩评估更多的要依赖于人的主观评价,而主观评价受岗位本身的限制影响最甚,这对数据工作者不利,其实越是沉默的岗位,越要发出自己的声音。

你看开发运维领域就很好啊,搞了云原生,搞了敏捷,搞了SRE,搞了DevOps,大家都拼命发出自己的声音,唯独数据工作者还是默默无闻,近几年数据中台带来了一波福利,但数据中台关注核心不是基础的数据质量。

企业的数据工作者一般技能通用性不足,很难获得人才市场的较高溢价,这是非常遗憾的。但如果企业内有两只数据报表团队,数据质量工程师绝对是被争夺的对象,数据团队的老大自己也会发现,一旦突发重大的数据质量问题,唯一可依赖的就是这类数据工作者,但只有经历过教训才会有深刻的认知。

5、缺乏第一推动

经过产品时代、资本时代的洗礼,现在企业管理者的出身大带上了时代的烙印,要么是与市场有关,要么与产品相关,要么与资本相关。

虽然我们即将进入数字化的时代,但由于这个时代刚刚拉开序幕,企业的管理者中有数据背景的屈指可数,大多企业是没有CDO的,能够真正认识到数据质量工作重要性的企业管理者不会很多,这不以人的主观意志为转移。

很多管理者看到了AI的巨大价值,因为有像DeepMind那样的产品让人耳目一新,但数据工作并不像AI那么容易show,也许只有这个专业出身的leader才能更好的理解其重要性,你没干过,就很难切记体察,很多数据的东西无法用一两句话说清楚,沟通成本巨大,打破部门数据壁垒这么艰难很多时候是人的认知问题。

华为的数据治理直接由CFO来负责,也许是因为财务对数据的要求极高,只有CFO才有力量推动相关数据工作。为了避免Google所说的现象发生,也许必须为数据工作者找到一个企业的代言人,CDO一天不设置,数据工作就很难得到真正的重视。

以上大概就是人人都想做模型而非数据工作的原因吧。

那么这种现象导致的危险到底在哪里呢?

Google提到了危险,是因为数据质量不高影响了其AI医疗上的识别能力,这可是人命关天啊,但显然不止于此。

吴军在《硅谷来信3》中答读者问的时候提到过一个职业教育的问题:在发达资本主义国家,能够提供比较多的所谓高大上的岗位,也就大概一半的比例,每个国家实际都需要大量的专业技能的工人。

中国如果要完成制造业升级,更是需要大量有经验、接受过职业教育的技术工人,技术工人的收入可能不比白领低,这也许是在初中升高中这一阶段会有50%的初中毕业生要进入职业学校的原因。

因为即便100%的年轻人都上大学,最终还会有一半找不到所谓的“大学生应该干的工作”,这实际浪费了资源。

在数据领域,我们实际也并不需要那么多的产品,开发或算法工程师,我们必需要有足够的数据工作者去做基础性工作,这能解释虽然你以建模工程师的岗位进入企业,但可能干的就是数据基础工作的原因,因为建模工程师早就溢出了,供需这只市场无形的手始终在发挥作用。

接受了这个现实,我们可以做三件事情,第一,要认识到数据基础工作的重要性,做好组织机制的保障,第二,打造数据工匠的文化,用行动来实现对数据岗位的平等尊重,第三,现在就去做。

0
相关文章