开始 让你自己跟上我们介绍内容的速度。

时间序列数据库是处理物联网数据泛滥的关键吗?

很明显,数据收集正以惊人的速度迅速增长。与人类历史上的任何时候相比,我们正在收集更多的数据,涉及更多的系统,跨越更多的行业。跟上数据流是当今IT行业的主要挑战之一。

不幸的是,我相信数据收集的增长才刚刚开始,数据收集的数量和速度不仅会增长,而且会以比以往更快的速度增长。我们要面对大量的数据。

为什么会有这么多数据?

当然,这个问题的答案很长,但它可以归结为这样一个事实:我们正在使用比以往更多的系统和更多的“东西”。从越来越多的应用程序和系统中——我们现在称之为DevOps-随着物联网的爆炸式增长,我们周围的一切都开始发射数据。现在,我将重点关注物联网数据的增长,以说明我们将面临什么。

每一位分析师都对他们认为到x年将有多少物联网设备上线做出了预测。Gartner的报道与前一年相比,物联网设备增长了31%,达到83亿部,并预计到2020年将有超过200亿部设备上线(这只是明年!)为了简单起见,让我们用200亿这个数字作为一个基线例子。

这是多少数据?

我已经建造了很多物联网设备——事实上,我现在的桌子上就有一打。其中一些设备只产生单个数据流,这意味着每次读取它们只产生单个数据点。另一些则产生十几条数据流。例如,消费者和工业传感器可以监控更多的数据,每个设备可以产生几十个数据流。

为了给出一个关于如何计算这些数据的更具体的例子,我们假设每个设备平均产生10个数据流,并每秒写一次数据——这对于许多工业传感器来说是非常低的记录。现在,我的单流传感器每秒钟读取二氧化碳含量并将其写入数据库。这个读数在百万分之0到10,000之间,长度从1到5字节不等。因此,为了简化计算,我们假设每个数据流都是5字节的读取,每秒读取一次。我们现在有一个设备,每秒产生5个字节,乘以10个数据流——也就是每秒只有50个字节!

虽然这似乎并不多,但如果您要将此数字乘以20亿设备,则您可以获得每秒大约1万亿个字节 - 或IOT数据的一个TB。每一秒。每天。永远。

我的笔记本电脑有1tb的硬盘,所以我可以在一秒钟内把它填满,差不多是拍字节一年内的数据

我们要怎么处理这些数据呢?

这才是真正的问题。

所有这些数据都必须实时输入某种可搜索的数据库。企业和组织必须每天每小时都对它进行存储、操作、查询和操作,以充分利用丰富数据所具有的业务洞察力。请注意,并非所有数据都要进入同一个数据库,但对于任何组织来说,这仍然是需要管理的大量数据。

在谈到摄入和存储数据时,我们还需要看一下它是什么类型的数据,因为不是所有的数据都是一样的。我们可以把物联网数据分成几个部分。第一个是我们用来收集数据的传感器和设备的元数据。这可以包括从传感器型号到服务日期,物理位置和任何其他关于传感器本身的数据。这些数据通常不会经常更新,而且可能不会随着时间的推移而发生很大的变化。

真正有价值的数据是传感器数据本身。传感器数据通常是来自传感器的有时间戳的读数,以恒定的流从设备发送到存储平台。它可以是二氧化碳读数、环境数据或心率监测器、工业设备等数据。无论该数据来自何处,它几乎总是遵循@time stamp的基本公式。你们中的一些人可能会认识到,这就是时间序列数据——对这些数据来说,时间是一个重要的组成部分。

我们如何存储时间序列数据?

有很多可能性存储时间序列数据世界上有很多数据库。你可以将它存储在一个传统的关系数据库管理系统(RDBMS),作为NoSQL数据库甚至电子表格或CSV文件中的非结构化数据。但仅仅因为你能做某事并不意味着你应该做。

传统的rdbms被设计用来存储访问和更新数据的关系表,而非结构化的NoSQL数据库则适合存储和检索非结构化数据。正如我们所见,物联网数据不是这些东西。它是高度特定的时间序列数据,为此,您需要一个时间序列数据库。

时间序列数据库是专门设计用来摄取、存储和查询时间序列数据的,因为它不同于其他类型的数据。它需要非常高的摄取率和跨时间查询数据的能力,以便从数据中了解趋势和业务见解。

时间序列数据的增长作为一个范畴

随着时间序列数据的增长,人们也意识到需要特定的系统来处理时间序列数据。这个日益严重的数据问题,以及时间序列数据库的增长,创造了一个全新的数据库供应商类别。这就是为什么在过去的24个月里,时间序列数据库一直是增长最快的部分数据库市场。

随着物联网数据的增长,原因显而易见。

所有IoT Agenda网络贡献者都对其帖子的内容和准确性负责。意见是作者的,不一定传达物联网议程的想法。

搜索首席信息官

搜索安全

搜索网络

搜索数据中心

搜索数据管理

关闭