一 数据的历史
从骨头上的第一个标记到我们今天使用的先进数字系统,数据的演变是人类创造力和进步的故事。通过了解这一历程,我们可以认识到数据在塑造我们的世界以及推动科学、技术和社会进步方面的重要性。
数据的首次使用可以追溯到公元前 19,000 年,当时我们旧石器时代的早期人类祖先使用了一种名为 Ishango 骨的工具。这种工具由狒狒的骨头制成,用于进行简单的计算。它上面刻有刻痕,可能有助于计数或记录数字。这种早期的数据记录形式表明,人类数千年来一直在使用工具来管理信息。
公元前 3400 年,古代美索不达米亚人开始在泥板上使用楔形文字书写。他们使用芦苇笔在泥板上刻出楔形标记。这种早期的书写形式用于记录重要信息,例如贸易交易、法律和故事。
大约公元前 3200 年,古埃及人开始使用象形文字,这是一种使用图像符号的书写系统。这些象形文字被刻在石头上或写在纸莎草纸上,用于记录重要信息,例如宗教文本、官方记录和故事。
公元前 1200 年,古中国人开始使用甲骨文来记录信息。这些通常是刻有早期汉字的动物骨头或龟壳。他们用这些骨头进行占卜,询问有关未来的问题,并记录他们认为已经揭示的答案。
从公元 500 年代到 1500 年代,中世纪欧洲人创造了手抄本和抄本来记录信息。僧侣和抄写员将文本精心地手工抄写到羊皮纸或牛皮纸上,制作出包含宗教文本、科学知识和文学的书籍。这些手稿通常装饰精美,配有复杂的插图,在印刷机发明之前是保存和分享知识的重要工具。
1440 年代,一位名叫约翰内斯·古腾堡的人发明了印刷机,这是一种可以快速高效地印制书籍的机器。这项发明彻底改变了信息共享的方式,使书籍可以批量生产,而不必手工复制。因此,知识更容易被更广泛的受众获取,从而推动了教育、科学和文化的重大进步。印刷机被认为是历史上最重要的发明之一。
大约在 17 世纪,约翰·格劳特 (John Graunt) 研究了大量数据,并发现了一些重要的东西。当时,人们并没有真正利用数据做很多事情,但格劳特改变了这一现状。他研究了伦敦的出生率和死亡率等问题,并发现了一些规律。这是一件大事,因为它帮助人们了解疾病如何传播以及人口如何增长。基本上,格劳特是第一批使用数据来了解我们周围世界的人之一,他的工作为现代统计学奠定了基础。
19 世纪 70 年代,一个名叫乔治·格兰特的人发明了一台机械计算器。在此之前,计算数字是一项繁琐的手工工作。但格兰特的发明改变了这一现状。他的计算器可以比人类更快地进行加、减、乘、除运算。这就像是我们今天使用的计算器的第一步。这项发明使数学变得容易得多,尤其是那些需要进行大量计算的科学家和工程师。基本上,格兰特的机械计算器改变了游戏规则,让数学不再让每个人都头疼。
大约在 19 世纪 90 年代,赫尔曼·霍勒里斯发明了一台制表机。这台机器意义重大,因为它可以超快速度处理大量数据。它是如何工作的?它使用穿孔卡来存储信息,有点像早期计算机中使用的穿孔卡。卡片上的每个孔代表不同的数据。当你将卡片放入机器时,它可以立即统计出所有信息。这项发明彻底改变了人口普查和数据处理等工作,使政府机构和企业的工作变得轻松很多。
从 20 世纪开始,弗里茨·普弗莱默发明了磁带。这项发明改变了数据存储和访问的规则。磁带基本上是涂有磁性材料的长条塑料。您可以通过磁化磁带的微小部分来将信息记录在上面。很酷的是,您可以在一卷磁带上存储大量数据,这非常高效。这项技术被广泛用于录音、数据存储,甚至早期的计算机系统。它为我们今天使用的更先进的数据存储形式铺平了道路,例如硬盘和闪存。
到了 20 世纪 40 年代,发生了一件开创性的事情:电子计算机诞生了。这些机器可以使用电路而不是机械部件来执行复杂的计算。在此之前,计算机体积庞大,主要用于特殊任务,例如在战时解码信息。但随着电子计算机的出现,情况发生了快速变化。它们变得更小、更快、功能更强大。突然之间,科学家、工程师和企业拥有了解决各种问题的强大工具,从计算数字到处理数据。电子计算机的诞生标志着数字时代的开始,塑造了我们今天生活的世界。
20 世纪 70 年代,EF Codd 提出了关系数据库。这些系统用于组织和管理大量数据,以便于访问和分析。在关系数据库出现之前,存储和检索数据有点混乱。但 Codd 的想法改变了这一切。他提出了一个系统,将数据存储在表中,每个表都包含相关信息。这使得查询数据和提取所需信息变得更加简单。关系数据库很快成为企业和组织的标准,为现代数据管理系统奠定了基础,并为从银行系统到社交媒体平台(互联网发明之后)的所有事物提供支持。
20 世纪 90 年代,蒂姆·伯纳斯·李 (Tim Berners-Lee) 推出了一项改变了世界的东西:万维网 (World Wide Web)。在此之前,在互联网上共享信息非常笨重,而且仅限于技术用户。但伯纳斯·李的发明改变了这一切。他创建了一个系统,其中的文档和资源可以通过超文本链接在一起,从而可以轻松地从一个页面导航到另一个页面。这向所有人开放了互联网,而不仅仅是计算机专家。突然之间,人们可以以前所未有的方式在全球范围内访问信息、交流和协作。万维网成为现代互联网的支柱,塑造了我们每天学习、工作和相互联系的方式。
21 世纪初,出现了两大技术趋势,彻底改变了我们处理数据的方式:大数据和云计算。大数据是指从社交媒体、传感器和在线交易等各种来源产生的大量信息。随着技术的进步,我们获得了收集、存储和分析这些数据的能力,以发现有价值的见解和模式。另一方面,云计算通过允许我们通过互联网访问计算资源和服务,彻底改变了我们存储和处理数据的方式。企业和个人现在可以利用远程数据中心的强大计算能力和存储能力,而不再仅仅依赖本地服务器。这些创新共同改变了行业,使组织能够更高效、更有效地做出数据驱动的决策,同时也使对强大计算资源的访问更加民主化。
在整个 2010 年代,两项改变游戏规则的技术成为人们关注的焦点:机器学习和人工智能 (AI)。机器学习涉及创建可以从数据中学习并随着时间的推移而改进的算法,而无需明确编程。这使计算机能够以惊人的准确性执行识别模式、进行预测和解决复杂问题等任务。另一方面,人工智能是指创建可以模仿人类智能的机器或系统的更广泛概念。从 Siri 和 Alexa 等虚拟助手到自动驾驶汽车和推荐系统,人工智能已深深融入我们的日常生活,提高了便利性、效率和决策能力。这些进步引发了从医疗保健和金融到交通和娱乐等各个行业的创新浪潮,重塑了我们与技术的互动方式,并为未来开辟了新的可能性。
自 2020 年代以来,两项关键技术占据了中心位置:区块链和去中心化数据。区块链就像一本数字账本,存储着计算机网络上的交易记录。每笔交易都经过加密并与前一笔交易相链接,从而形成一个安全透明的区块链。这项技术因其在比特币等加密货币中的使用而广受欢迎,但其潜力远不止于此。区块链有能力通过提供安全且防篡改的系统来跟踪资产、验证身份并促进无需中介的点对点交易,从而彻底改变行业。去中心化数据与区块链相辅相成,允许信息在计算机网络上存储和共享,而不是依赖单一的中央权威。这促进了透明度、安全性和数据主权,使个人和组织能够更好地控制其数字资产和信息。区块链和去中心化数据将共同颠覆传统系统,为更加去中心化、透明和安全的数字未来铺平道路。
从古代标记到现代技术,我们已经看到人类如何利用数据来理解世界并取得进步。每一步,就像 17 世纪 John Graunt 的分析或 1990 年代 Tim Berners-Lee 的万维网一样,都带来了使用信息的新方式。现在,随着 2020 年代区块链和去中心化数据的出现,我们正在进入一个新阶段。这些技术有望提高我们数据的安全性和控制力。数据的历史仍在展开,展示了我们一直以来如何利用信息向前发展。
二 理解数据
在当今世界,数据在制定决策、提高效率和推动各个领域的创新方面发挥着至关重要的作用。对于任何想要利用信息力量的人来说,了解不同类型的数据、管理数据所涉及的角色以及塑造数据未来的新兴趋势都是必不可少的。从构成数据基础的原始事实和数据到用于分析和可视化数据的先进技术,数据生态系统的每个方面都有助于更好地理解我们周围的世界。
(1)数据简介
什么是数据?
数据是收集和存储的信息。它可以是数字、文字、测量值、观察值,甚至只是事物的描述。例如,姓名列表、温度记录或每日销售记录都是数据类型。
为什么数据很重要?
数据很重要,因为它可以帮助我们了解周围世界并做出决策。通过分析数据,我们可以发现模式、预测结果并解决问题。
如果一家商店跟踪每天销售多少冰淇淋,就可以利用这些数据了解哪些口味最受欢迎,并确保始终有足够的库存。
企业如何使用数据?
1. 决策:企业利用数据做出明智的决策。通过查看销售数据、客户反馈和市场趋势,企业可以决定开发哪些产品、如何定价以及在哪里销售。
服装店可能会分析数据来找出哪些款式卖得最好,然后决定储备更多这些款式的服装。
2. 提高效率:数据可帮助企业识别流程中的低效率。通过分析生产时间、员工绩效和资源使用情况的数据,企业可以简化运营。
制造公司可能会使用数据来找出某台机器导致的延误,并决定修理或更换它以加快生产速度。
3. 营销:数据使企业能够更有效地定位营销工作。通过了解客户的偏好和行为,企业可以创建个性化的营销活动。
在线零售商可能会根据顾客以前的购买情况,使用数据向他们发送个性化的电子邮件优惠。
4. 客户服务:数据帮助企业改善客户服务。通过分析客户投诉和反馈,企业可以发现常见问题并加以解决。
电信公司可能会使用数据发现许多客户对他们的网速不满意,并决定升级他们的网络基础设施。
5. 创新:数据可以带来新想法和创新。通过分析趋势和客户需求,企业可以开发新产品和服务。
科技公司可能会使用数据来识别对新型软件的需求,然后创建产品来满足该需求。
(2)DIKW 金字塔
DIKW 金字塔是一个解释数据、信息、知识和智慧之间关系的模型。它展示了如何将原始数据转化为有用的见解和决策。
数据
数据是未经处理的原始事实和数字,没有背景信息。它代表从我们周围的世界收集的观察结果或测量结果。某一天每小时记录的温度列表:72°F、75°F、78°F、80°F。
信息
信息是经过处理、组织或结构化后赋予其意义的数据。它为数据提供背景信息,使其变得有用。特定日期每小时记录的温度列表,以表格形式显示当天的时间以及每个温度读数。
知识
知识是通过与其他信息、经验或理解相结合而进一步处理的信息。它允许识别模式、关系和见解。
知道温度往往在早上升高,并在午后达到峰值。通过分析温度数据,您可以了解这种模式每天都在发生。
智慧
智慧是基于知识做出合理决策和判断的能力。它涉及以实用、有意义的方式运用知识来实现预期结果。
由于知道午后气温最高,您决定在早上安排户外活动以避开高温。明智的做法是利用对温度模式的了解做出切实可行的决定,以提高您的舒适度和安全性。
(3)数据类型
数据可分为三大类:结构化、半结构化和非结构化。每种类型都有各自的特点和用途。
结构化数据
结构化数据组织严密,易于搜索。它通常以固定格式存储,如表格,其中每条数据都位于特定字段中。这种类型的数据通常存在于数据库和电子表格中。
客户数据库包含客户 ID、姓名、地址、电话号码和购买历史记录等字段。表格中可能显示如下内容:
半结构化数据
半结构化数据具有一些组织属性,但不适合整齐地放入表格或数据库中。它包括用于分隔数据元素的标签或标记,这提供了一些结构,但它的组织方式不像结构化数据那样严格。
一封包含“主题”、“发件人”、“收件人”和“正文”等字段的电子邮件。电子邮件正文是非结构化的文本,但其他字段提供了一些结构。以下是电子邮件格式的简单示例:
主题:会议提醒
发件人:manager@example.com
收件人:employee@example.com
正文:别忘了明天上午 10 点的会议。
非结构化数据
非结构化数据缺乏预定义的格式或组织,因此处理和分析起来更具挑战性。此类数据通常存在于文本文档、图像、视频和社交媒体帖子中。
公司活动的照片集。每张照片都是非结构化数据,因为它不遵循既定格式。您无法直接将照片内容组织到表或数据库中。
(4)数据生态系统的子领域
数据生态系统包含多个子领域,每个子领域侧重于管理和利用数据的不同方面。以下是每个子领域的概述,并通过示例进行简单说明。
数据收集方法
数据收集方法是用于从各种来源收集数据的技术。这可以包括调查、传感器、网络抓取和交易记录。
零售店通过其销售点 (POS) 系统收集客户购买数据。这些数据包括购买的商品、数量和总消费金额。
数据存储
数据存储涉及以安全有序的方式保存收集的数据,以便以后可以访问和使用。这包括数据库、数据仓库和云存储解决方案。
零售店收集的顾客购买数据存储在服务器上的数据库中,可供查询和分析。
数据工程
数据工程是设计、构建和维护用于收集、存储和处理数据的系统和架构的过程。它涉及创建数据管道,以确保数据从源头顺利流向存储和分析。
数据工程师建立数据管道,自动从 POS 系统中提取销售数据,将其转换为合适的格式,然后加载到数据库中。
数据分析
数据分析是检查数据以提取有用见解和模式的过程。这可能涉及统计分析、机器学习和其他方法来了解趋势并做出预测。
零售店的数据分析师会分析销售数据,以确定哪些产品最受欢迎以及一年中什么时候卖得最好。
数据可视化
数据可视化是以图形格式(例如图表、图形和地图)呈现数据,以使信息更易于理解和解释。
数据分析师创建了一个条形图来显示不同产品类别的月销售额,帮助店长快速了解哪些产品表现良好。
数据安全和隐私
数据安全和隐私涉及保护数据免遭未经授权的访问,并确保根据法律和道德标准处理个人和敏感信息。
零售店实施加密和访问控制,以确保只有授权人员才能查看客户购买数据,从而防止潜在的泄露。
大数据
大数据是指需要专门的工具和技术来存储、处理和分析的极其庞大和复杂的数据集。它通常涉及大量、高速度和高多样性的数据。
社交媒体平台每秒都会收集大量有关用户互动的数据。这些数据非常庞大且复杂,传统的数据处理工具无法处理,因此需要使用专门的大数据技术。
数据治理
数据治理是管理数据的一套政策、程序和标准,以确保数据的质量、一致性和安全性。它涉及监督数据所有权、数据管理和法规遵守情况。
零售店制定数据治理政策,以确保所有客户数据准确、最新且符合数据保护法的存储。
(5)数据生态系统中的角色
数据生态系统中的每个角色都有独特的重点和职责。以下是这些角色的概述,并通过示例进行了简单的解释。
数据分析师
数据分析师通过解读数据提供切实可行的见解。他们通常使用结构化数据,使用 Excel、SQL 和数据可视化软件等工具来识别趋势和模式。
零售公司的数据分析师会分析销售数据,以确定哪些产品在哪个季节卖得最好。他们可能会创建图表和报告,帮助管理层制定有关库存和营销策略的决策。
数据工程师
数据工程师负责设计、构建和维护数据收集、存储和处理所需的基础设施。他们确保数据从源头顺利流向存储和分析系统。
数据工程师建立了一个数据管道,自动从电子商务网站收集客户交易数据,将其转换为一致的格式,并将其加载到数据库中进行分析。
数据科学家
数据科学家使用先进的分析技术、机器学习和统计模型从数据中提取更深入的见解。他们经常使用结构化和非结构化数据来解决复杂问题。
一家医疗保健公司的数据科学家开发了一种机器学习模型,可根据医疗记录和治疗历史预测患者治疗结果。他们的工作可帮助医生做出更明智的治疗决策。
数据架构师
数据架构师负责设计公司数据管理系统的总体结构。他们制定蓝图,规划数据在整个组织内的存储、集成和访问方式。
金融机构的数据架构师设计了一个综合数据架构,整合了来自客户账户、交易和外部市场数据等各种来源的数据,确保可以有效地访问和分析数据。
数据管理员
数据管理员负责确保组织数据的质量、一致性和治理。他们执行数据管理政策和标准。
大型企业的数据管理员负责确保不同部门的数据输入遵循相同的格式和标准。他们监控数据质量、解决差异并确保遵守数据保护法规。
每个角色对于确保有效地收集、存储、处理、分析和管理数据都至关重要,可帮助组织利用数据做出明智的决策并推动成功。
(6)数据的未来趋势
数据的未来受到几个关键趋势的影响。下面通过示例简单解释人工智能、物联网 (IoT) 和边缘计算如何影响数据格局。
人工智能与数据
人工智能 (AI) 涉及使用机器执行通常需要人类智能的任务,例如理解语言、识别模式和做出决策。人工智能在很大程度上依赖数据来学习和提高其性能。
在医疗保健领域,人工智能系统可以分析大量医疗数据,以识别可能预示疾病发作的模式。例如,人工智能模型可以检查医学图像,比人类医生更准确、更快速地检测出癌症等疾病的早期迹象。
物联网 (IoT)
物联网 (IoT) 是指嵌入传感器、软件和连接的物理设备、车辆、家电和其他物体的网络,允许它们收集和交换数据。
智能家居设备(例如恒温器、安全摄像头和冰箱)会收集使用模式和环境条件数据。智能恒温器可以了解您的供暖偏好并自动调节温度,从而有助于节省能源并提高舒适度。
边缘计算
边缘计算涉及在更接近数据生成地点的地方处理数据,而不是将数据全部发送到集中式数据中心。这减少了延迟和带宽使用,从而实现了更快、更高效的数据处理。
在自动驾驶汽车中,边缘计算用于实时处理来自传感器和摄像头的数据,以便快速做出决策,例如为行人停车或绕过障碍物。这种即时处理对于自动驾驶汽车的安全性和功能至关重要。
随着我们不断前进,数据的重要性只会继续增长,人工智能、物联网 (IoT) 和边缘计算的进步将引领这一趋势。这些趋势将增强我们更高效、更有效地收集、处理和使用数据的能力。通过了解数据生态系统中的角色并随时了解未来趋势,个人和企业可以做出更明智的决策,保护他们的数据,并利用新技术取得更大的成功。数据的未来充满潜力,拥抱它将释放无数机会。