【IT168 翻译】Excel绝对是大多数人的数据管理启蒙工具,它可以很好的对数据进行存储、清理和分析。其实,严格来说Excel并不是免费的,但是今天已经没有人会付费使用。因为一般新买了PC机,Excel就已经预装在了电脑里。如果电脑里没有预装的Excel,大多数人也会选择使用盗版软件,但是盗版有风险,使用需谨慎!
Excel虽然是一款很好的数据入门软件,但是如果你长期使用它来进行数据清洗,那么它的弊端就会显露出来,因为它清洗数据的时间实在是太长了。
下面小编就为大家介绍几款实用又有格调的数据清洗软件,最重要的是它们还都是免费的呢。
Microsoft Excel
应该每个人都有将数据导入到Excel中的经历吧,Excel可以支持很多来源的数据导入,例如Microsoft Access、网页、文本文档、SQL server、XML、CSV等等。但是,日常生活中最常用的导入方法应该就是手动输入。
Excel为数据清洗提供了一系列的函数,比如删除重复、查找替换以及拼音检查,除此之外还有一些公式TRIM()、CLEAN()、SUBSTITUTE()。
Excel在进行数据清洗的过程中要注意以下几个方面:
(1)避免在数据清单中存在有空行和空列。
(2)避免在单元格的开头和末尾键入空格。
(3)避免在一张工作表中建立多个数据清单,每张工作表应仅使用一个数据清单。
(4)在工作表的数据清单应与其他数据之间至少留出一个空列和一个空行,以便于检测和选定数据清单。
(5)关键数据应置于数据清单的顶部或底部。
使用Excel的函数和公式进行数据清洗的技术难度不是很大,但是微软的风格很浓重,如果能可以设置一个按钮,可以一键删除选定列之外的其它列就好了。
Excel还有一个问题就是函数的使用范围,一些函数可能只适用于选定的数据,但是同时还会有其它函数要应用于所有数据。例如当你想要将某一列的一个字段A替换成B,但是因为作用范围选错了,可能将整个工作表中的A都替换成B了。
所以清洗数据最安全的方法就是备份,先将工作表复制一份,执行完所有的清洗操作,确认无误后再复制到原始表中。
Summary
总体来说,Excel特别适用于刚刚接触数据清洗的新手。另外,Excel还有很广泛的支持,可以通过论坛,书籍,电子邮件课程等等多种渠道来获得Excel的相关知识,帮助新手解决使用过程中遇到的问题。
OpenRefine
OpenRefine有“Excel on steroids”的美誉,是一款在数据清洗、数据探索以及数据转化方面非常有效的格式化工具。
典型的OpenRefine的组成部分:
1.Importing your data
2.Transforming it
3.Exporting the result
OpenRefine的数据导入方法很简单,表格的每一列都要有一个列名,每一行都有一个标号。支持多种数据格式的导入导出,例如CSV、Excel、JSON、XML和XHTML格式等等。
数据导入成功之后,OpenRefine会提供很多功能和工具来进行数据处理,数据处理的操作都会被记录下来,可以随时进行浏览和撤销。
OpenRefine的大多数操作都是基于行、列或者单元格的。
基于行的操作,目前有标记和删除,但是还没有添加功能。筛选和搜索功能也十分强大。
OpenRefine的列操作很简单,可以进行列的重命名和删除,也可以根据某一个字段对列进行排序。除此之外, OpenRefine还提供了更强大的基于列的操作功能,如添加现有列或从URL中提取到的列,合并相同的列。
OpenRefine还提供了一些常见的变换,将头尾的空格转换成String类型。
Summary
OpenRefine的学习曲线要比Excel陡峭,但是功能更加强大,只需花费少量的时间就可以进行数据清洗。和Excel相比,它最大的优势莫过于undo/redo功能。
虽然OpenRefine的很多功能考虑比较全面,但是有利就有弊,这也给它带来了操作复杂性,而且如果进行长时间的数据清洗还会导致系统性能下降,甚至可能会直接奔溃。OpenRefine的相关资料虽然没有Excel那么广泛,但是也有一些指导视频和一本书,适用于有一定基础的数据管理人员。很多人认为OpenRefine就像榴莲,有人嫌弃至极,有人却爱得深沉。
Trifacta Wrangler
Trifacta Wrangler和Excel、OpenRefine不同,是一种对多种数据类型进行清洗的半自动化工具,数据类型包括文本和数值数据、二进制数据等等。
下载并安装应用程序之后你需要创建一个帐户,它会按时间顺序生成该账户的使用日志,所有的数据操作和工作流程都是在本地完成,并且能够保证程序总是处于最新的状态。
打开Trifacta Wrangler应用程序,加载数据集,数据集的格式可以是CSV、TSV、JSON、Excel,然后找出每一列的数据类型,将整个数据集做一个可视化概述。在每一列的顶部都有一个横向堆叠的柱形图,用来显示有效值和错误值,帮助使用者更加快速的识别错误。
Trifacta Wrangler的数据清洗是基于列的,手动操作,但是它的操作要比Excel和OpenRefine容易。虽然,Trifacta Wrangler需要手动识别数据中的错误和问题,但是它可以自动将数据清洗操作应用于所有列。Trifacta Wrangler可以轻松地拆分、合并列,也可以通过Transformer来进行一些其它的复杂操作。
Summary
Trifacta Wrangler的主要集中于业务数据,支持将数据移植到Tableau,目前Trifacta Wrangler只有一个内置教程,并没有太多的相关教程。
Trifacta Wrangler是一个赏心悦目的程序,它既可以给我们带来视觉上的愉悦,也可以帮助我们轻松的工作。它和Excel、openrefine相比最大的优势就是半自动化,可以缩短数据清洗的时间。
DataKleenr
DataKleenr是数据清洗软件领域的新兵,它是一款全自动的解决方案,支持text、数字和二进制数据。
DataKleenr是基于云的,无需下载安装,只要有浏览器和网络即可。创建账户,所有的数据清洗操作都在云上进行,然后会加密、保存到您的私人工作区,通过账户登陆可以随时随地管理项目。
目前DataKleenr只支持comma-separated CSV文件,加载数据集时会自动检测每一列的数据类型,分配连续标签,有序还是无序,并且用一个柱形图来显示已经清洗的数据、未清洗数据和忘记清洗数据的比例,还可以通过下拉菜单来选择数据类型。
DataKleenr是基于列的数据清洗,它有智能算法,可以自动决定数据清洗的方法,用户只需要检查最终的结果即可,也可以点击一个变量来检查该变量的详细清洗操作。
DataKleenr的容错性比较好,它可以纠正拼写错误,并排除它认为的无效数据。条形图有助于显示类别的分布和顺序,另外DataKleenr中的所有操作都可以轻松撤回。
类似text、符号或者其它混合数据类型的连续数据、无效数据都会被自动清除。数据清洗完成之后,会得到一个comma-separated CSV 文件。
Summary
DataKleenr和其他方案相比,最大的优点是完全自动化的,直观简单,通常在几分钟内就可以完成数据的清洗。另一方面,DataKleenr不是针对所有数据类型的工具,它主要针对科学数据。
总结
虽然现在市面上有很多的数据清洗软件,但是真正免费的很少,有的软件只提供限时免费的试用,而有的则是提供部分功能的免费使用。
数据清洗还有很多免费的插件可以使用,例如R,但前提是你得是一个资深程序员。如果你是一个小菜鸟的话,不妨可以尝试上述的几款工具。Excel的优缺点很明显,但是它是零基础人员的入门工具,如果你是稍微有基础的人员可以考虑使用openrefine、Trifacta Wrangler和datakleenr,因为它们可以更快、更简单、更准确的进行数据清洗。
原文链接:http://www.datasciencecentral.com/profiles/blogs/free-alternatives-to-excel-for-data-cleaning