这是基本指南的一部分: 利用大数据平台进行数据管理、访问和分析
管理 学习应用最佳实践并优化您的运营。

物联网和大数据的组合为数据管理负载增加了更多的权重

随着物联网的全部力量开始为组织承担责任,它提出了如何处理由此产生的大量大数据的问题。专家安迪·海勒有一些建议。

作为大数据应用程序的一部分,数据量呈指数级增长,IT界已经疲于应对。现在,一个更大的数据挑战,无论从何种意义上说,正在向我们疾速袭来:物联网。

结合物联网(IoT)大数据正在显著扩大数据管理举措的范围。在2003年——现在还不是很久以前——世界上最大的数据仓库的大小是30tb。现在,波音787等飞机的引擎在一次飞行中产生的数据至少有半tb。据估计,一辆自动驾驶汽车每小时可以生产超过1tb的二氧化碳。从工厂车间的数千台制造设备每秒多次收集操作数据,也可以迅速积累到tb级的信息——对于大型制造商来说甚至是pb级。

Gartner预测,到2020年,将有近210亿台设备连接到物联网;IDC的预测更为乐观,预计届时联网设备将达到300亿部。把传感器在冰箱、汽车、可穿戴健康监测仪、智能电表和各种工业设备上——甚至在家畜身上——创造了大量的商业可能性。2015年麦肯锡全球研究所(McKinsey Global Institute)的一项研究估计,在十年内,物联网可以产生相当于每年11万亿美元总体经济价值。

虽然这些数字可能只是基于有根据的推测,但它们已经足够引起世界各地首席执行官的注意。然而,物联网和大数据系统产生的大量数据给IT团队带来了相当大的挑战,而不仅仅是基本的数据存储和处理。

物联网需要架构升级

许多希望利用物联网数据的组织需要从这一点开始增强他们的IT架构通过加入Hadoop集群和相关的大数据技术。这并不是一件简单的事情:我们已经看到Hadoop系统在大数据应用程序中使用的大量问题,通常是取代主流关系数据库。这样的系统仍然需要使用传统的工具和流程来管理数据,并帮助数据科学家和其他分析师理解数据。

Hadoop的早期采用者不得不求助于复杂的编程来完成几十年前数据库中自动完成的任务。IT行业对此做出了回应,许多基于关系数据库的现有技术现在都在对Hadoop进行支持。例如,一些数据质量工具现在包括Hadoop连接器。但是要建立一个功能上等价的集合还有很长的路要走数据管理功能用于物联网和大数据环境。

大数据社区也做出了相应的调整,比如在2013年末发布的YARN集群资源管理器,它将Hadoop分布式文件系统(HDFS)从MapReduce批处理框架中分离出来。YARN让Hadoop集群更容易用于实时和交互式应用,包括物联网数据流的处理和分析。

Spark处理引擎是另一个例子。它使用内存技术极大地加快了许多批处理工作负载;它还支持数据流和机器学习,同时让it团队在使用HDFS或其他数据存储之间做出选择。但Spark、YARN和其他大数据工具为IT经理提供了多种技术选择,要跟上所有这些技术的发展步伐可能是一项艰巨的任务。

数据所有权的问题

并非所有的物联网数据管理挑战都是技术性的。一个几乎没有被提及的问题是谁真正拥有所有的数据由汽车、健身追踪器、电表和其他设备——消费者或公司——生产收集和处理数据吗?其中一些信息非常敏感,可以揭示人们生活的方方面面,包括他们白天的行踪和某些类型的医疗信息。例如,向保险公司或未来雇主的人力资源部门提供个人健康数据的潜在后果确实很严重。

一个更直接和实际的问题是物联网数据的安全性。在保护电脑和手机上的数据免受恶意软件和黑客攻击方面,我们已经遇到了足够多的麻烦,但至少有一系列健康的杀毒软件、防火墙和其他安全软件可以帮助我们。传感器和机械上的数据保护措施通常是初级的。这些设备通常都有一个简单的键盘接口,限制了它们使用短的数字密码,很容易被黑客攻击。

在拥有互联网连接的汽车上,已经出现了一系列漏洞——2015年的一起事故导致140万辆吉普切诺基(Jeep cherokee)被召回。同年,一群南阿拉巴马大学的医科学生展示了他们如何侵入一个无线“病人模拟器”,并控制了安装在其中的心脏起搏器。鉴于物联网设备控制的项目具有如此严重的安全影响,恶意攻击的可能性尤其令人担忧。

每一项新技术都面临挑战,毫无疑问,将会有很多创造性的努力来解决这些问题和其他尚未确定的问题。然而,危险在于,物联网和大数据带来的商业机会是如此巨大,以至于人们会有一种冲动,希望所有数据管理问题都能在以后以某种方式得到解决。IT行业的历史表明,试图改造解决方案来应对这些挑战,而不是从一开始就设计出来,充其量也只能是一团糟。

在这种情况下,马跑了再关马厩门可能是一个有用的比喻。事实上,鉴于物联网设备已经出现适用于马,牛和其他谷仓里的动物,这可能是一个太字面的表达。

关于作者
Andy Hayler是Information Difference Ltd.的联合创始人和首席执行官,经常在主数据管理、数据治理和数据质量等会议上发表主旨演讲。

下一个步骤

播客:未来是什么物联网和大数据应用吗?

为什么物联网需要一个测量的方法

物联网和大数据项目会导致独特的存储问题吗

深入挖掘物联网(IoT)数据管理

搜索首席信息官

搜索安全

搜索网络

搜索数据中心

搜索数据管理

关闭