统一存储新边界-UMStor的创新

由Ceph中国社区主办,DOIT和Dostor承办的全球首届Ceph亚太峰会——Cephalocon APAC 2018于4月22日-4月23日在北京顺利召开,这也是Ceph问世以来的全球首场峰会。被誉为“Ceph之父”的Sage Weil,Ceph社区经理Leonardo Vaz,Ceph基金会等一众高层亲临到场,来自国内外Ceph生态圈的开发者、服务商以及SDS用户在为期两天的会议中,进行了全面深入的交流。

UMCloud作为全球Ceph开源社区的贡献者之一,不仅赞助了本次大会,还带来了3场精彩的技术分享,与国内外用户分享我们SDS产品的研发与实践经验。本文为UMCloud朱荣泽带来的 “统一存储新边界-UMStor的创新,贴近CBA时代气息的存储系统”主题分享。

前言

本次主题包含两个问题:
1) 什么是CBA时代?
2) “统一存储的新边界”到底在哪里?
首先CBA简单来讲是C-Cloud云、B-Bigdata大数据、A-AI人工智能。对于第2个问题,接下来的分享将围绕“统一存储的新边界”具体展开。

上图为本次主题的大纲,主要内容有:
1) CBA时代的应用场景和数据量对存储的挑战。
2) 假如新的统一存储要解决这些挑战,它的边界要扩展到哪里?
3) UMStor是怎么用创新去突破边界的,我们将介绍2个超大规模案例介绍。

CBA时代对存储的要求

 

大家知道10年前的“统一存储”是指同时支持SAN、NAS,满足了当时客户的需求,主要是为了省钱和提高效率。10年后,我们再看统一存储,新的应用场景涌现,伴随着海量数据的挑战,使旧的统一存储不能再满足客户的需求。CBA时代对存储的要求由“2合1”变成“8合1”,新的统一存储需要同时支持8种应用场景,并且新的统一存储要解决如下的问题:

  • 多协议支持
  • workload优化
  • 存储资源统一管理与调度
  • 分级存储
  • QoS
  • 存储功能
  • 统一存储管理平台

由此可以看到在CBA时代新应用场景对于存储系统提出了更高维度的要求。

我们看到,在CBA时代,数据量越来越大,数据类型越来越多。我们应该怎么管理这些数据,应该怎么挖掘这些数据的价值呢?显然这是一个非常巨大的挑战。

统一存储的新边界

那么,统一存储的新边界在哪里? 朱荣泽总结了三条:
• 规模边界;
• 复杂边界;
• 业务边界;
“规模边界”下,单项目10PB级存储规模成为新常态,这需要新的统一存储能够快速部署和管理这么大规模的存储容量。“复杂边界”能够满足多种应用场景负载,轻松解决数据挑战。“业务边界”顾名思义就是能够充分利用已有的AI技术,为企业业务赋能。

目前新的统一存储系统到底能否满足这些新边界的要求?接下来我们先看一下UMStor的产品架构,看它是如何解决这些问题的。

上图是UMStor整体产品架构。UMStor由五大模块组成,分别是存储网关层、智能存储层、存储引擎、AI计算引擎、存储管理平台。在架构上UMStor有以下优势:
 使用“存储管理平台”和“存储引擎的架构”、还有丰富的架构设计经验去解决“规模边界,大规模部署问题”,可以快速部署和交付10PB级存储系统。
 使用“存储网关层”和“智能存储层”去解决“复杂边界,满足复杂应用场景的问题”。因为存储网关层支持多种数据接口,支持块存储iSCSI、NBD接口,可以用于OpenStack云平台、VMware、K8s持久化存储;支持对象存储接口S3、文件接口NFS、流媒体接口RTMP、大数据接口HDFS,满足99%的接口要求。
 使用“AI计算引擎”去解决“业务边界,给企业业务赋能”。

规模边界 – UMStor 大规模部署

应用案例:30PB超大规模云存储

 

这是UMCloud和客户共建的一套30PB的云存储系统,已经成功上线一年多。该云存储系统对外提供对象存储服务,提供标准S3接口;整个云存储系统部署在两个数据中心,一共4个集群,共520台服务器,4个分布式存储集群组成多站点多活架构。

在整个30PB云存储项目中,架构设计的重要性占80%,实际部署和测试的重要性占20%。这对于分布式存储产品和厂商的要求是:
1) 分布式存储SDS产品天生支持软硬件分离,并且各个组件和模块是低耦合,全分布式全冗余架构,具有天然的扩展性。另外网络和存储可以进行灵活的规划,这使得架构师可以根据实际项目需求进行完善设计,满足客户当前与未来的需求。
2) 厂商需要具有超大型项目架构设计能力和丰富的案例经验,涉及到复杂的网络、存储、业务的设计与规划。有时候还需要跟云平台对接,也要对大规模云平台非常了解。目前大规模私有云平台使用OpenStack较多,这里面的门道需要厂商心中有数,避免项目设计上的重大失误。
3) 存储管理平台内置超大规模部署和管理能力。厂商具有超大型项目交付能力,可以通过存储管理平台进行图形化自动化部署和管理,具有完善的交付流程和丰富的经验。这需要存储产品的“存储管理平台”可以执行除 “人工协调”外的所有操作,保证分布式存储系统的交付质量和速度。

应用案例: 20PB数据湖案例

 

这个项目的背景是某运营商子公司需要构建统一的IT系统资源池云平台,对IT系统资源池内的资源进行统一管理,实现体系化、专业化、高效率、易配置的业务运营系统,满足公司的业务需求。IT资源池一期二期共包括4000台服务器,用于虚拟化(OpenStack)、裸机、分布式存储等,其中分布式存储需要20PB存储容量。

另外,分布式存储需要支持媒资业务、大数据业务(Hadoop、HBase、Spark、Hive、Flume等)、虚拟化平台服务,可以同时支持4000台虚拟机;需要支持多种类型存储接口,包括对象存储接口、块存储接口、大数据存储接口;需要具有多种存储高级功能,支持EC纠删码、快照、克隆、在线卷扩容、存储分级;需要具有非常高的可用性,无单点故障,具有完善的数据保护和恢复功能。

针对这些需求,传统存储已经不能满足这么大规模的IT资源池项目,原因如下:
1) 传统存储SAN和NAS很难满足4000台虚拟机同时进行高负载读写访问;
2) 传统存储的系统容量和性能不能横向扩展,硬件锁定不能自由选择使用的硬件设备;
3) 传统存储建设成本沉重,并且功能单一,阻碍业务创新。

这种情况下,使用UMStor统一存储解决方案的优势是:
• UMStor基于通用的x86服务器构造了统一存储资源池,提供多种数据服务。采用领先的全分布式全冗余架构,具有高弹性和高可靠性,性能和容量可以横向扩展;
• 一站式方案,提供块存储接口、对象存储接口、大数据接口、文件接口;
• 超高性能,UMStor属于全分布式架构,所有存储服务器都贡献性能,可以满足4000台虚拟机高负载的读写访问,还有大数据业务和媒资业务的负载。
• 可以扩展到50PB容量,UMStor支持快速扩容,并且不影响线上业务。
• 无硬件锁定,可以选择合适的x86服务器、硬盘、网络设备。

UMStor能够带给客户的收益有:
• 突破性的吞吐性能和低延迟表现,UMStor支持SSD和SATA混插,并且属于全分布式架构,所有硬盘和服务器都并行工作,支持秒级创建虚拟机和快照,满足4000台虚拟机的高负载读写访问。
• 高扩展性满足企业业务增长需求, UMStor支持软硬件分离,采用通用x86服务器实现了分布式的敏捷扩展。
• 数据安全性达到11个9,UMStor实现所有软硬件冗余,无单点故障,具有超高可用性。UMStor具有故障检测和自动回复功能,可以实现多块硬盘并行恢复,支持不同存储池的不同副本数量存储策略。
• UMStor数据湖同时支持S3、RTMP、HDFS、NFS接口,能够满足多种应用负载场景。

复杂边界 – UMStor的创新

支持多种协议

目前UMStor支持多种协议,主要有以下四类:

  • Cloud Storage(云存储):主要是块存储,用于OpenStack、k8s、VMware等,提供原生块存储接口和iSCSI接口。
  • Data Protection(数据保护):主要用于备份和归档场景,提供标准S3接口,可以实现云集成高级功能。
  • Analysis(数据分析):提供NFS、HDFS、S3接口,可以直接运行Hadoop/Spark/HBase/Hive/Flume等大数据应用,还可以直接运行TensorFlow等深度学习框架。
  • Inovation(创新):提供流媒体视频直写接口,另外还提供图片识别和语音识别功能,以后还会提供更多数据处理功能。通过AI计算引擎,为企业业务赋能。

 

支持对象存储高级功能

 

表格列出的是AWS S3编年史,从2006年到2016年开发的高级功能,从这张表格可以看出,UMStor跟AWS S3在功能方面差距非常小,在高级功能上相差无几。

目前我们已经用到和新开发的对象存储高级功能,其中多站点多活功能已经在使用。我们在2016年已经开发了云同步功能,可以用于备份;自定义标签加搜索功能可以用于非常多的业务场景,相当于去掉之前使用的数据库;云集成功能可以用于备份归档,直接把数据分片加密存放在公有云上;存储类别也是各大公有云厂商提供的功能,目前我们的UMStor也提供相应功能,而其他家商业对象存储产品还没有开发类似功能。

云集成Cloud Tier功能

 

UMStor开发了云集成Cloud Tier的功能,由于本地存储容量有限,因此UMStor可以进行冷热数据分析,把冷数据迁移归档到公有云上或另外一套大容量UMStor存储上;数据经过加密和分片后存放在公有云上,保证数据的安全性和隐私性。通过云集成功能,本地存储可以具有接近于无限的存储容量。

支持存储类别功能

 

大部分公有云厂商的云存储都会提供存储类别功能,还提供生命周期管理。UMStor提供了存储类别Storage Claases功能的企业级存储产品,目前可以自定义存储类别,并且对象文件可以实时更改存储类别。归档存储因为使用了压缩功能,所以得盘率会高于100%。

支持无缝替换大数据Hadoop存储

 

UMStor可以作为企业新的大数据存储。为什么已经有了HDFS、S3A,我们还要重复造轮子呢?这是因为企业使用UMStor作为大数据存储收益更大。

 

这是UMStor开发的大数据存储接口,用户可以通过此接口Hadapter访问UMStor对象存储。目前经过验证和适配的大数据应用是Hadoop、HBase、Spark、Hive、Flume等。而UMStor大数据接口是可以直接访问到OSD硬盘,中间没有存储网关,因此可以跑满所有存储服务器的网络带宽。

 

从上图可以看到,UMStor+Hadapter跟原生HDFS存储相比,在大规模、高性能、多应用场景、高扩展性的场景下,UMStor+Hadapter比原生HDFS优势更明显。

融合数据湖

 

企业客户在处理大量非结构化数据时一般会面临数据量不断增大的问题,另外数据需求不断增长导致难以管理。由于访问机制的复杂性,将数据从源系统移到分析系统时将会经历更长的延迟。
UMStor推出的融合数据湖解决方案,可以实现一次写入、多次读取、无需拷贝和移动数据,数据源系统和分析系统合二为一,用户不需要移动数据,将时延降到较低,较快的挖掘数据的价值,加速业务创新;也不需要改造已有应用。
例如:摄像头可以通过RTMP协议直写流媒体视频到UMStor的数据湖中,然后直接使用大数据应用对视频数据进行处理和分析,再把结果数据写会数据湖中,其他应用可以直接通过HTTP S3接口访问到结果数据。

业务边界 – UMStor 为业务赋能

AI计算引擎下沉

 

UMStor增加了AI计算引擎,充分利用空闲的CPU资源。目前已经支持语音识别、语音转写、图片处理等功能,未来还会增加更多AI服务。用户使用对象存储接口上传录音文件,并可以自定义多个Tag标签,UMStor可以进行Tag感知,假如感知到有Tag指示需要进行语音识别和转写,会启动“语音转写”任务,把这个录音文件的内容识别,并转成文本存放在弹性搜索引擎上,其他Tag也会存放在弹性搜索引擎上。通过弹性搜索引擎,用户可以快速搜索语音的内容和Tag,进行合规性检查或者是大数据分析。图片处理功能可以包括“鉴黄”和“裁剪”功能等。

总结

本文中定义了统一存储的3个新边界,并介绍了UMStor是如何解决这三个问题的。整体来看,UMStor的三大优势在于:
1. 支持10PB级以上超大规模部署
UMCloud在中国较大单一分布式存储资源池项目规模超过30PB;
2. 轻松解决复杂数据存储挑战
UMStor提供多种数据接口,包括块存储、对象存储、文件存储、大数据、流媒体等接口,适用于虚拟化、容器、云计算、大数据、物联网、混合云、AI人工智能、备份归档等场景。UMStor的数据互联互通,打破数据调度壁垒,是较好的数据湖解决方案;
3. 计算引擎下沉
UMStor包含弹性AI计算引擎,插件式计算框架,提供高级服务接口,为企业业务赋能,包括图片处理、音频处理、视频处理等功能。

Leave a Reply

Your email address will not be published. Required fields are marked *