从GFS开始,大数据12年的发展

这篇是学习徐文浩的大数据经典论文专栏所记。

摘要

随着数据量的不断增大,如何对于海量数据进行处理。Google在03,04,06年分别发表了被称为谷歌三驾马车的经典论文GFS、MapReduce和Bigtable,分别解决了海量数据场景下存储,计算和在线查询的问题。现在看来,这些经典的技术也存在各自的缺陷,因为MapReduce编程麻烦,出现了Hive;因为Bigtable缺少事务,出现了Megastore;因为执行引擎的延时很高,所以出现了Dremel;因为磁盘IO的性能问题,出现了Spark。

后来,随着实时计算的需求出现,批处理和流处理的概念兴起,Google 的 Dataflow 论文对于实时处理进行了总结,这对于 Spark 和 Flink 的实现有很大的影响。

大数据还有一个核心的概念是封装和抽象,是把数据中心当作一台计算机,提供一种服务的背后是一个集群,对于集群的通信和调度,存在一致性问题,为了解决这一问题,有Paxos协议,以及现在更流行的Raft协议。对于跨数据中心的问题,Google在12年发表的Spanner被很多人认为可以同时满足CAP。

过去对于集群的部署方式是一个计算集群占一系列的服务器,但很多时候这些服务器资源都是闲置的,对于占满硬件资源的需求,让Kubernetes大放光彩,现在有很多Spark on k8s的研究。

大数据的发展在过去二十年日新月异,前阵子看到有文章说,最近出现的开源爆款已经是3-4年前的事了,大数据是否进了停滞呢?我认为不是的,未来的数据量只会更大,到以后会不会有新的划时代技术出现呢?既然误打误撞走进了这条路,那就走好它吧!

三架马车和其缺点

img

三驾马车都有对应的开源实现:

  • GFS -> HDFS
  • Google MapReduce -> MapReduce
  • Bigtable -> HBase

很多人将大数据的开源视为03年开始的这三篇论文,但它们也依赖了之前的工作。

第一个是为了保障数据一致性的分布式锁。对于这个问题,Google 在发表 Bigtable 的同一年,就发表了实现了 Paxos 算法的 Chubby 锁服务的论文。

第二个是数据怎么序列化以及分布式系统之间怎么通信。Google在论文中没有提到这一点,但HBase用了 Thrift 作为和外部多语言进行通信的协议。

img1

MapReduce的发展

MapReduce虽然不需要工程师再去写分布式代码了,但仍然需要编程,对于数据分析人员来说不友好,它进化的方向就是通过一门 DSL,进一步降低写 MapReduce 的门槛。Google发表了Sawzall,Yahoo 实现了 Pig,但最终胜出的是FaceBook09年发表的Hive,写HQL和写SQL差不多,背后执行的还是多轮的MapReduce。

MapReduce还设计到落盘问题,实时性很差,也不能很好解决像机器学习这样的多轮迭代计算。

对于实时性,Google 在 2010 年,发表了 Dremel 这个交互式查询引擎的论文,采用数据列存储 + 并行数据库的方式。

对于多轮迭代,则是Spark大放异彩,Spark还提供了Mllib来实现机器学习,Spark SQL来实现Adhoc。

Bigtable的发展

Bigtable和HBase为了伸缩性放弃了关系型数据库的特性,不支持事务。Google 先是在 2011 年发表了 Megastore 的论文,在 Bigtable 之上,实现了类 SQL 的接口,提供了 Schema,以及简单的跨行事务。

其次是异地多活和跨数据中心问题。Google 在 2012 年发表的 Spanner,能够做到“全局一致性”。

img2

流式处理数据

Hive和Spark主要是用来进行ETL的,允许几分钟乃至几个小时的延时,为了解决这一问题,流式数据出现。

经典的工作是Yahoo2010年的S4,Nathan Marz 开源的Storm,和 GFS 一样,Storm 还支持“至少一次”(At-Least-Once)的数据处理。Nathan 还基于基于 Storm 和 MapReduce 提出了 Lambda 架构,它可以称之为是第一个“流批协同”的大数据处理架构。

2011年,Kafka作为一个消息队列发布了,但是由于 Kafka 里发送的消息可以做到“正好一次”(Exactly-Once),所以大家就动起了在上面直接解决 Storm 解决不好的消息重复问题的念头。

2015 年,Google 发表的 Dataflow 的模型,可以说是对于流式数据处理模型做出了最好的总结和抽象。一直到现在,Dataflow 就成为了真正的“流批一体”的大数据处理架构。而后来开源的 Flink 和 Apache Beam,则是完全按照 Dataflow 的模型实现的了。

img3

服务器资源的调度

一致性问题

分布式系统中,一致性是逃避不开的问题,特别是当服务器越来越多的时候,对于一致性的要求也更高。这一部分,绕不开Paxos,Raft,ZAB。

资源利用问题

过去搭一个集群,往往是用独占一些列的服务器,但是计算任务占的资源并不是一直很高,很多时候,我们的服务器资源都是闲置的。在集群规模很大的时候,这也会带来很大的浪费。这是 Kubernetes 近年来越来越火的原因。


开源大数据架构的 100 篇论文 - 推荐~