海量不止是容量,曙光问鼎MassStor100榜首

北京2021年2月1日众所周知,如今我们正身处信息爆炸的时代,随着新基建的逐步深入,各行各业都在快速推进数字化转型,随之诞生的各类创新技术层出不穷。这些新技术的发展,大多都围绕着大数据这个主题展开。如人工智能,就是以大数据为生产要素;5G技术的成熟应用,为大数据快速生成与传输筑造了通路基础,区块链又为大数据的去中心化交易提供了技术支撑。此类新技术的应用与推广必然带来大数据的规模化聚集,数十甚至数百PB的存储系统,将成为业界常态。应对大规模存储压力,绝非仅仅靠设备堆砌来解决容量问题这样简单。容量的叠加也将引发技术的质变,存储系统面临诸多关键技术上的挑战。

曙光是国内第一家专注大数据存储系统研制的厂商,2009年第一代全自研ParaStor分布式存储系统诞生,奠定了构建大数据存储最佳解决方案的基石。同年,为用户构建了当时国内最大的16PB单一存储系统。在10多年的发展过程中,曙光始终围绕大数据分布式存储系统进行架构的深度优化甚至局部重构,以应对云、人工智能、区块链等技术带来的大数据新的挑战。今天,曙光ParaStor在科研教育、气象环保、生命科学、能源、区块链等领域打造了一个又一个大数据存储最佳实践,完成了从单套系统23PB、56PB到百PB级别的自我技术超越,获得了市场的高度认可。

基于多年技术积累以及多套百PB级别超大规模存储系统研制和运维经验,曙光公司认为,只有拥有如下核心技术研发实力,才能更好的应对各行业大数据存储的挑战。

先进、创新的底层存储技术基座

在基础架构层面,传统集中式存储架构由于Scale-up扩展方式的局限性,无法对大数据的容量与性能需求实现良好的支撑,天然适合此类场景分布式存储架构逐渐成为市场主流。为了应对大规模存储的挑战,曙光ParaStor除了采用分布式架构之外,还可灵活选择对称与非对称部署两种模式,以更具性价比的硬件构建成本,支撑千亿级别文件、EB级存储空间的扩展需要。

除了架构之外,决定存储系统先进性的另一关键要素是底层数据管理技术。目前业界分布式存储系统,大多采用Btrfs、ZFS等开源文件系统进行底层磁盘管理,以降低代码开发量,缩短产品研发周期。但这种间接的磁盘管理方式,无法更直接、高效地发挥磁盘性能。特别是在配置了数千甚至上万块磁盘的大规模存储系统中,单个磁盘的性能衰减会成指数级放大,最终影响存储系统的整体性能和可靠性。为解决这个难题,曙光在ParaStor上创新性地开发了CDF分布式文件系统。利用CDF可以精细化控制磁盘IO,使应用层的多个小随机IO智能组合为大的顺序IO,减少磁盘操作,使数据布局和负载更均衡,显著提升多事务并发、IO异步处理等大规模数据应用场景的系统性能。并为热点数据加速、自动分层、重删压缩等进阶数据管理服务的高效运行打下了良好的基础。

海量并发应用场景下的深度性能优化

大数据应用场景下,应用IO模型复杂多样、文件粒度差异很大,为了匹配不同应用对带宽、IOPS、延时的个性化需求,要求存储系统具备从磁盘管理、网络层到协议层整个IO路径上的深度优化能力。同时,随着参与数据存储和处理节点数量的增加,由此带来的资源开销也会攀升,同样需要针对性的优化设计。

从建设成本角度考量,大规模存储系统仍以机械磁盘为主角。机械磁盘由于寻址方式的物理设计,在处理随机小文件IO时会有先天的性能劣势,单纯依靠硬盘数量的增加无法应对大量小文件的性能挑战。

ParaStor是基于底层OBS管理系统实现与闪存介质深度融合的存储系统,使用少量闪存高效覆盖热点IO需求,同时采用小IO合并、元数据缓存、动态智能预读等多种方式,显著提升海量大、小文件混合应用场景的整体性能体验。

此外,ParaStor通过高性能网络InfinibandRDMA协议支持和专属高性能POSIX客户端等技术,针对具体的应用场景,单流带宽可优化至18GB/s。在首届中国海量存储系统MassStor100排行榜中,一套裸容量为100PB的存储系统,其系统聚合带宽高达1TB/s,代表了业界最高水准。

ParaStor分布式存储系统针对大规模集群的资源占用进行了多重细粒度的优化措施,保障了存储系统性能的恒定发挥和数据访问的可用性。

在数据一致性保证层面,ParaStor存储通过分布式锁(DistributedLockManagement,DLM)实现了高并发共享访问场景的顺序、秩序与效率。在可靠性保障方面,ParaStor存储系统定向开发了内部资源动态调度管理算法,通过多重技术有效避免资源争抢,显著缩短故障数据重建时间,解决了性能与可靠性冲突。

在运维管理方面,ParaStor通过将节点按照不同角色抽象成多个管理分组,以分组为单位进行管理信令交互,增大了信息传递颗粒度以降低通信频度,实现管理流量的去中心化错峰交互,集群信息秒级同步,提升了整体战斗力。

海量存储需求需要全方位的定向深度优化,ParaStor存储系统在基础架构、数据管理、性能优化、数据一致性、可靠性保障、运维管理等方面均实现了深度优化。

始终致力于海量数据存储领域的发展,ParaStor已经成为全国数千家用户管理着超过10EB的核心数据。曙光存储为云计算、轨道交通、气象环保、基因测序、能源勘探等行业用户提供了坚实稳定的保障。未来,曙光存储将继续总结与吸收海量数据存储系统优化与运维过程中积累的宝贵经验,并在数据全生命周期管理,在线实时数据处理,以及与区块链、AI、容器等新兴技术深度融合等方面加强投入,为用户提供更快速、更可靠、更智能、更便捷的一站式数据管理服务。