导读 :今天分享的刘嘉题目是Alluxio元数据和数据的同步,从设计实现和优化的设计实现角度进行讨论 。主要包括以下几个方面的和优化角内容:
01
Alluxio简介
Alluxio是云原生的数据编排平台,通过解耦计算和存储层,度浅在中间产生了一个数据编排层 ,元数负责对上层计算应用隐藏底层的据同时间细节 。Alluxio提供了统一的刘嘉存储命名空间,在中间层提供了缓存和其他数据管理功能。设计实现在下图可以看到有Spark、和优化角Hive、度浅Map reduce这一类传统的元数Hadoop大数据计算应用、Presto 这种OLAP类型的据同数据分析,还有像Tensorflow、刘嘉Pytorch这样的设计实现AI应用。存储层比较丰富,和优化角包括各种各样的存储 。
图1 Alluxio简介
下面是Alluxio用户列表 ,这些公司都公开展示了Alluxio的使用场景 。通过粗略分类,看到非常多的行业 ,包括互联网、金融 、电子商务、娱乐 、电信等 。感兴趣的同学可以关注公众号 ,上面有相关文章的汇总。
图2 Alluxio的用户展示
--
02
Alluxio数据挂载
这部分将首先回顾Alluxio如何通过数据挂载实现统一编排层;之后讨论Alluxio如何和底层存储保持一致;介绍元数据和数据同步功能;Alluxio的时间原理和优化;最后对不同场景的推荐配置给出建议 。
1. Alluxio统一的数据命名空间
首先介绍数据挂载这个功能 。Alluxio通过把底层存储挂载到Alluxio层上,实现了统一的数据命名空间 。
图3 Alluxio统一命名空间
上图的例子中Alluxio挂载了HDFS和对象存储 。Alluxio的文件系统树就是由左右两棵树合成,形成了一个虚拟文件系统的文件系统树。它可以支持非常多的底层存储系统,统一把它们称作Under File System。称为Under是因为它们都处于Alluxio的抽象层下。Alluxio支持各种各样不同的底层存储系统,比如不同版本的HDFS,支持NFS, Ceph, Amazon S3, Google Cloud之类不同的对象存储。除此之外还支持非常多其他类型的对象存储,比如微软Azure、阿里、华为 、腾讯,也包括国内其他供应商 ,如七牛对象存储 。左下图中的例子是在自己的电脑上运行Alluxio ,可以挂载不同的存储,比如挂载HDFS,另外还可以挂载不同版本的HDFS,挂载对象存储,挂载网盘。
2. Alluxio挂载点
Alluxio的统一命名空间 ,实际就是把挂载合成了一个Alluxio的虚拟层。Alluxio的挂载点可以粗略分成两种:
图4 Alluxio挂载点
根挂载点直接挂在根节点上,组成了Alluxio的根节点。如果没有根节点,无法产生 ,继续形成下面的结构。所以要求在配置文件里面定义根挂载点 ,系统启动的时候就进行挂载,不挂载就没有办法启动 。
嵌套挂载点比较灵活 ,可以通过指令进行挂载。通过这个命令行,发出通知,做挂载的操作。同样地 ,可以挂载 ,也可以卸载 ,就是把Mount换成Unmount。嵌套挂载点是嵌套在目录的下面 ,可以挂在某个部分下面 ,不一定挂载在根节点下面 。这里有个要求,即两个嵌套点的树不能互相覆盖,这样带来的好处是比较灵活 。如果根挂载点将来需要更换,为了避免需要改配置和重启服务 ,可以使用一个dummy的根挂载点,比如就挂载在本地路径下面,不使用它,且不在它下面创建任何文件,它存在的唯一目的就是可以启动Alluxio服务。然后在此基础上,把所有要管理的存储 ,都以嵌套挂载点的方式挂载上去 。之后如果要改变 ,就直接卸载更换为其它挂载点,这样就很灵活 。所有挂载和挂载操作 ,都会记录在日志里,重启系统,并重启服务之后,无需再手动操作。
3. Alluxio策略化数据管理
图5 Alluxio策略化数据管理
挂载操作有一个进阶版操作,目前只包含在商业版本里面。所做的事情就是让用户可以把两个存储挂载到同一个路径下 ,可以互相覆盖 。同时通过配置读写策略 ,定义读写文件到哪个存储里 ,并给出操作的先后顺序 。同时Alluxio有一个迁移策略 ,让文件可以自动在Alluxio的管理下 ,在多个存储之间进行迁移 。例如 ,把HDFS和对象存储同时挂载到同一路径下,上层用户只能看到这样一棵树 ,但是实际上背后有两个不同的存储 。通过配置,让Alluxio把HDFS的数据,根据一些规则,定期迁移进S3,例如规定将超过七天的数据,认定是不常用到的冷数据之后,把它从HDFS的集群拿出来 ,迁移到S3,节省HDFS的存储空间。
--
03
Alluxio底层存储一致性
在把底层存储挂载到Alluxio的统一命名空间上之后,如何保持Alluxio和底层存储的一致性?我们在这一部分进行分析 。