浪潮:畅聊“智能存储管理”这波技术“后浪”

北京2021年3月12日(HadoopDistributedFileSystem)作为通用的分布式文件系统,可以提供高可扩展、低成本、高可靠的海量数据存储,并广泛应用于大数据存储和分析方向。近年来伴随5G、物联网、人工智能等领域的快速发展,数据量规模不断增大,同时随着大数据应用的多样化发展,对数据的利用也更加成熟与深入,更大数据量以及更加灵活的数据处理场景对HDFS的数据存储与数据读写吞吐提出了越来越高的要求。

为应对这些挑战,浪潮着力研发与集成的面向分布式文件系统的智能存储管理技术SmartStorageManagement(简称SSM)应运而生。通过多项新技术及特性来解决存储场景中的各类挑战,助力大数据产品提供更加高效、智能的存储解决方案。

现今存储技术面临哪些疑难挑战?说到疑难挑战,首先当推基于异构存储介质的数据存储管理。从硬件平台来看, HDFS的设计初衷是基于通用的廉价硬件提供可靠、高吞吐的数据存储和访问。但随着硬件的迅速发展,传统的磁盘性能和存储容量都已达到瓶颈,新硬件如固态硬盘、非易失性内存和SMR磁盘等受到广泛关注。

目前,HDFS已有的功能和研究虽然可以兼容多类型的异构介质,实现对异构存储介质的访问和使用,但没有很好的机制让其智能感知不同设备的I/O特性,并根据数据的访问特征动态改变存储方式,在异构的环境下最大程度发挥各类硬件的性能优势。

其次则是面向大规模存储的容量压力。为了系统的可靠性,传统HDFS通过副本策略来保障数据的安全,通常默认为三副本,但存储利用率仅为1/3。如果使用纠删码(Erasure Code,EC)来替换副本策略确实可以提供与副本相同的容错能力,并使用较少的存储空间,但在典型的纠删码中如果要求存储额外开销不超过50%的话,相应的纠删码却会占用更多的计算资源,所以当系统面临存储压力时,用户常常希望将不常使用的数据使用纠删码存储,降低存储压力。

但目前的HDFS技术仅支持基于目录的副本到纠删码转换,转换后业务访问文件的路径将发生改变,并无便捷的机制自动化进行。

面向应用负载的自适应存储挑战也不容忽视。从上层应用来看,一方面在大数据Hadoop生态系统不断发展的过程中,HDFS因其自身的稳定可靠、简单易用、扩展性高等优点使越来越多上层应用和系统将其作为统一的底层存储,其上存储的数据类型和支持的分析负载也越来越多元化。

另一方面,在企业中不同部门和用户经常基于同一份全量数据进行查询分析,带来同一份数据服务多样的查询负载。在这种应用场景下,基于人工制定策略的存储优化就难以生效,势必需要提供基于应用负载的自适应优化技术来应对。

智能存储管理(SSM)技术 聚焦两核心、三场景、四技术、五特性面对异构环境下如何最大程度发挥各类硬件性能优势的难题以及来自存储的数据类型和支持的分析负载越来越多元化与应用负载的自适应优化等方面的挑战,智能存储管理(SSM)提供了智能化的解决方案。

何为智能存储管理SmartStorageManagement(SSM)?概念上,智能存储管理(SSM)被定义为面向 HDFS的智能管理架构,主要提供针对新型存储设备、高速网络、新计算的存储优化与数据优化解决方案,实现端到端的数据管理服务,聚焦点可以概括为“两核心、三场景、四技术、五特性”。

『两大核心』SSM的核心是基于数据热度的智能化管理来实现自动化面向存储的全生命周期优化。

在数据热度方面,典型的应用场景中通常20%的数据占用了80%的计算工作负载,在动态变化的环境中,局部数据的优化尤其困难。

为了解决这个问题,SSM采用多项指标分析数据访问模式,收集文件系统操作数据与状态信息,并从文件级别定义数据热度。这样,他们可以针对热度信息制定更具针对性的数据管理方式来提高系统性能。

在智能决策方面,SSM建立了基于规则的智能决策体系,它可以根据历史数据和指标学习,从而使系统具有预测数据访问模式和持久学习能力。这样,系统可以实现稳定可持续的智能化管理。

「三种场景」目前,SSM在三种经典场景下拥有突出的表现,例如多储存模式。它可以提供更加灵活的存储模式选择;在数据优化上则提供了小文件合并、数据灾备、数据压缩等新功能,适用于对数据优化有需求的应用场景;智能化管理面向大规模集群的数据管生命周期的自动化管理。

『四项技术』SSM主要通过分布式集群自治技术、分布式事件驱动技术、基于规则的智能存储管理技术和数据热度感知技术实现智能的存储管理。这样,系统可以提高执行效率和容错性,解决存储数据量巨大、数据增量高、数据类型混杂难以管理等问题,实现智能化管理。

『五种特性』SSM面向用户场景,具有五类典型的特性增强,包括异构存储增强、纠删码增强、小文件合并增强、自动化数据灾备和透明化自动压缩。这样,他们可以提高异构存储访问效率、减缓管理压力、全自动跨域数据增量备份、无感知压缩等。

总体而言,智能存储管理(SSM)使用数据热度识别及智能化的决策体系为核心,配置面向应用场景的技术优化整体方案,自动化智能化地解决HDFS存储面向异构介质、存储空间及应用负载等方面的挑战,提升HDFS分布式存储的易用性及适用场景,为浪潮云海Insight带来更好的体验。

浪潮云海Insight是一站式企业级大数据解决方案,采用新型技术架构可承担企业大规模数据的采集集成、多样存储、规模计算以及智能分析挖掘等工作,支撑企业数据中心业务模型快速落地,助力企业信息化智能转型。SSM是智能存储管理技术,在云海Insight团队对客户需求的分析和方案验证及增强后,通过一键安装、可视化运维、基于票据的认证架构等解决了备份灾备、数据生命周期管理、小文件合并等用户需求,提供了更优秀的用户体验。

举个例子,SSM系统可以根据数据热度判断策略,在三副本存储和纠删码存储之间自动转换,从而提高存储空间利用率达到三分之一以上,同时不需要任何业务改变,这大大提升了系统的可用性。

通过多方实践验证,基于HDFS的智能存储管理技术能够消除外界触发,实现数据管理和细化管理粒度的一次规则定制,从而达到以下效果:

热、冷数据快速迁移在异构介质之间,数据访问效率可以提高2倍以上;

自动快速转换储存副本与纠删之间,存储空间可以省超过50%;

利用透明化的数据压缩、小文件合并和平台级自动数据备份和迁移等方式,可以实现业务无感知,全面提升大数据平台的智能数据管理能力。

随着大数据和人工智能的迅速发展,人工智能给存储管理带来了无限的可能性,使用智能算法提高大数据的调度和智能管理能力已成为技术发展的必然趋势。未来,智能存储管理技术(SSM)将基于深度学习优化计算框架,浪潮云海Insight也将进一步提高存储管理的智能化水平,为用户提供更优秀的解决方案。