技术开发 频道

如何定义数据科学家:核心能力盘点

  【IT168 专稿】“数据科学家”在2009年由Natahn Yau首次提出,其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。数据科学家集技术专家与数量分析师的角色于一身,与传统数量分析师相比:后者通常利用企业的内部数据进行分析,以支持领导层的决策;而前者更多的是通过关注面向用户的数据来创造不同特性的产品和流程,为客户提供有意义的增值服务。

  面向客户的性质决定了大部分数据科学家担任公司产品开发或营销部门的职位,或是效力于首席技术官。那么数据科学家需要具备哪些核心能力呢?科技记者Derrick Harris在其文章中介绍了数据科学家应具备的一些技能。

  他表示,在你询问别人什么是数据科学家,或者数据科学家是做什么的时候,很容易发现:“数据科学家”其实是从“大数据”引发的术语混乱中形成的。数据科学的核心能力被定义为:SQL、统计、预测建模和编程、Python等,这些听起来很合理。但是很快就有更多名词添加到其中:Hadoop/MapReduce、机器学习、可视化,甚至还有传统的数学、物理、计算机科学等类似能力。

如何定义数据科学家:核心能力盘点
▲IBM的员工Swami Chandrasekaran在博客上展示的地铁图样式的数据科学家技能图

  上文所罗列的这些只是技术方面的条件,许多人呼吁专业领域、商业智慧、创造力及表达能力也是同样重要的。一个数据科学家不能只擅长数字(这种人被称为统计学家或分析师),也要能够理解业务:什么样的数据或结果才是有参考性的;能够找到新的数据集并为其创造新产品;然后能够让CXO们理解这一切。

  这是一个艰巨的任务,这个世界上这类人是很少的。Kaggle公司日前在其博客上宣布:从三年前成立至今,数据科学竞赛平台Kaggle成员已经到达10万名。这可能意味着很多人已经轻松的获得了这十年来最热门的技能,或者意识到他们已经拥有了这一技能。

如何定义数据科学家:核心能力盘点
▲Kaggle的发展轨迹

  即使这世界上有几百万人轻易的称自己是数据科学家,让10万人聚集在一个平台上也是相当了不起的,这些对数据科学感兴趣的人通过Kaggle来测试他们的技能水平。Kaggle在竞赛方面的业务现在已经发展的很成熟了:代表其他公司、机构组织最知名的公共数据挖掘和预测分析比赛。越来越多地公司进入Kaggle提出需求意味着每一个参加者都将更容易获得奖励。Kaggle的主页查看其连接服务(一种称为Prospect的早期服务发展而来的):通过实时排名让客户直接认识那些优异的竞参赛者。

如何定义数据科学家:核心能力盘点
▲Kaggle的总裁兼首席科学家Jeremy Howard(左)

  作为顶尖的数据科学家,不要求他们对环境做出什么积极的改变,但是需要他们尝试做一些真正先进的东西。不是说他们为了成功就必须聚集在某一类似于Kaggle的平台,这一平台只是用于帮助大家更好的解决业务上的问题,或是组织比赛者试图通过预测模型优化自己的业务。很多优异参赛者毫无疑问也有一些统计和数据分析的经历——即时他们不是使用最新的技术。但是一些竞赛胜利者也不过是只有很少编码经验和学习过Coursera的介绍性机器学习课程的大学生。

  这并不是因为数据科学或预测的比赛很简单,而是因为比赛有了很大的变化,Kaggle帮助人们降低了进入数据科学的门槛。它比过去更容易了解到对你有用的在线课程和编码程序;更容易学习或访问各种工具如R或Hadoop,云计算的到来使这一变得更加简单;在Kaggle或Topcoder这类平台上将有更多机会锻炼你的技能。在这里可能不能帮助你成为谷歌的工程师,但是足够帮助你在其他地方任职,并获得丰厚的薪酬。

  原文链接:Kaggle now has 100K data scientists, but what’s a data scientist?

0
相关文章