【IT168 专稿】上世纪八十年代在新闻院校里求学时,为故事收集数据意味着需要拿出大量时间研讨纸质文档或者观看缩微胶片。
但随着时间推移,如今的状况已经天翻地覆。尽管印刷资料仍然有其独特作用,但越来越多的信息开始以网络为载体呈现在新闻工作者面前。在技术成果的有力推动下,数据新闻迎来了辉煌的繁盛时期。从基本概念上讲,数据新闻是指利用人口普查数据、犯罪统计以及其它统计结果了解并讲述事件的活动。
目前市面上存在大量强劲但却价格不菲的工具,足以帮助记者同志们收集、精简、分析事件数据并以可视化方式呈现结果。但也有不少规模较小或者预算紧张的新闻机构甚至是独立记者无力承担这些工具。不过没必要担心,上帝关上一道门的同时、总会为我们留下一扇窗。
在开源阵营中,同时存在着不少足以帮助数据记者们高效快捷完成日常任务的优秀工具。在今天的文章中,我们将着眼于其中的六款佼佼者,看看它们如何切实帮助数据记者获得自己需要的信息。
数据获取
记者们能够在网络上找到的数据大多数能够以电子表格或者CSV、PDF文件的形式进行下载。但也有不少信息内嵌于网页当中。相对于手动复制并粘贴这些信息,大多数数据记者不约而同地选择了直接保存页面。这种处理方式实际上是利用自动化工具获取内嵌于网页当中的信息,并将结果保存为HTML表格形式。
如果大家或者所在企业中的其他同事对技术充满好奇,那么Scrapy(官方网站:http://scrapy.org/)应该会成为一款理想的工具。Scrapy利用Python编写而成,属于一款命令行工具,能够快速从网络当中提取结构化数据。Scrapy在安装与设置方面难度比较高,但一旦投付运行、大家就能够充分享受它所带来的多种便利功能。精通Python的程序员还可以对这些功能进行快速扩展。
电子表格可以说是数据记者们不可或缺的基本工具之一。在开源领域,LibreOffice Calc(官方网站:http://www.libreoffice.org/discover/calc/)可算应用范围最广的电子表格编辑工具了。Calc的作用并不限于查看并修改数据,其网页查询导入过滤器允许大家将Calc指向特定网页,并提取包含于其表格中的数据甚至页面内的全部表格。尽管它在处理速度与效率上无法与Scrapy相提并论,但Calc仍然能够很好地完成我们交给它的任务。
处理PDF文档
也许是无心之举、也许是有意为之,目前网络上有不少数据都以PDF文件的形式存在。事实上,大多数PDF文档都包含着重要的有价值信息。如果大家在工作中处理过这类文档,就会意识到从中提取数据有多么困难。
这时候就轮到DocHive出场了,这款工具由Raleigh Public Record开发,专门用于从PDF文档中提取数据。DocHive能够根据PDF的现有内容生成扫描文档。它会对PDF进行分析,将其划分成多个细小片段,而后利用光学字符识别技术读取其中的内容并将文本信息整理成CSV文件。感兴趣的朋友可以点击此处了解更多关于DocHive的细节信息。
Tabula(官方网站:http://tabula.nerdpower.org/)与DocHive比较相似。它的设计目的在于获取PDF当中的表格信息并将内容转化为CSV文件或者微软Excel电子表格。大家需要做的只是在PDF中找到需要的表格并加以选定,Tabula会自动完成后续工作。其执行速度很快,效率也相当高。
数据整理
通常情况下,大家提取到的数据当中可能包含拼写与格式错误或者字符编码问题,这会直接导致数据信息变得不一致且无法正常使用——这时候就需要数据整理工具出场了。
如果大家需要处理的数据集规模较小,其中只包含几百行信息,那么完全可以使用LibreOffice Calc配合人工检查的方式完成整理。但如果大家面对的数据集规模庞大,那么人为处理将成为漫长、缓慢而且效率低下的痛苦过程。
下面请出OpenRefine(官方网站:http://openrefine.org/)。它能自动对数据内容进行修正与整理。OpenRefine可以实现数据排序、自动查找重复条目并完成数据记录。OpenRefine的真正能力体现在facets身上。Facets类似于一款电子表格过滤器,能够轻松找出其中的空白单元格与重复数据,并掌握特定数值在数据中的出现频率。
以上还仅仅是OpenRefine工具的一小部分功能。感兴趣的朋友可以点击此处查看官方说明文档,从而了解更多与OpenRefine相关的细节信息。
数据可视化处理
获取到数据之后,编写新闻报道就变得非常顺畅易行了。不过如果大家需要对数据内容加以汇总、沟通与理解,那么可视化处理同样不可或缺。维基百科对信息图(即infographic概念)的重要意义与作用进行了深入阐述,大家不妨找机会读读看。
要想创建出行之有效的可视化成果,大家不一定要拥有出色的图形设计能力。如果我们的实际需求不太复杂,那么Data Wrapper(官方网站:https://datawrapper.de/)已经足以满足大家的对可视化的期望。这是一款在线工具,能够将可视化成果创建任务分成四步来进行:从电子表格中复制数据、对数据加以描述、选择需要的图像类型、最后创建图像。Data Wrapper当中提供的可选图像类型算不上丰富,但整个操作过程极为简单。
很明显,我们发布的这份数据新闻开源工具清单还远称不上全面。不过其中提到的各类选项完全能够为预算紧张的新闻单位或者独立单干的新闻工作者提供坚实的业务平台,帮助他们利用数据勾勒出报道思路并最终构建起完善的新闻稿件。