导航菜单

匠心故事 | 百炼成钢的FusionStorage 8.0

从去年11月到今年春节前后,华为存储和开发的支柱曹长斌每晚都无法入睡,因为他参与FusionStorage 8.0研发项目遇到了各种难题。在那段时间里,曹长斌甚至考虑过如何解决研发所面临的问题,即使他正在吃饭或跑步。

FusionStorage 8.0是近年来华为最重要的战略产品。它不仅是华为存储产品线的重大升级,也是帮助用户实施One Data Center One Storage(数据中心存储集)的愿望。

时间过得很快,时钟已经无意中在5月15日到来。在这一天,华为下一代智能分布式存储产品FusionStorage 8.0正式发布。此时,曹长斌松了一口气,多日连续战斗所造成的疲惫无法掩盖兴奋:“如果我需要得分,我愿意给予FusionStorage 8.0一个非常好的位置。这不仅仅是在整体上结构,性能,功能等,华为存储研发专注于客户需求,是第一个通过全球协作克服行业挑战的人。“

FusionStorage 8.0实现了全球首个分布式存储性能。单节点性能高达168,000 IOPS且小于1毫秒。它在行业标准SPC-1测试中排名第一。第一个实现支持一组存储中的块和文件。对象,HDFS协议;并且,第一个将人工智能技术集成到存储生命周期管理中。

在这一系列美丽人物的背后,华为在北京,上海和深圳的六个研发团队设计了一个新的存储架构,开发并移植了数千万行代码,并连续进行了近十次迭代,重复抛光,优化结果。

简没有减少

“客户经常向我们的建筑师反馈存储非常复杂。”作为研发公司的曹长斌经常与建筑师进行沟通。他介绍说,华为存储架构师每年将30%的时间花在一线客户身上。沟通,尽可能地向研发人员反馈一线业务需求,然后准确开发满足客户需求的产品和解决方案。

存储的复杂性一直困扰着用户的数据中心。这种复杂性主要体现在长期的信息化建设上。用户数据中心通常面临多种类型的存储。生产,备份和灾难恢复通常使用不同的供应商。不同的存储产品,烟囱存储环境带来了巨大的管理复杂性,并且不能让数据流动,共享和价值挖掘。曹长斌说:“客户希望更多地关注核心业务创新,并渴望通过一系列存储来移动数据,支持数据中心业务,实现数据生成,流程,共享和价值挖掘。”

img_pic_1560746277_0.png

另一方面,大量行业客户正在加快数字化转型的步伐,并且更加渴望基于数据的数字创新和业务敏捷性。这也需要携带数据的存储产品。除了简化管理复杂性之外,还需要性能。可扩展性,功能性,智能性等方面都有了质的提升。

曹长斌以电信业为例:“4K/8K和AR/VR等新业务不断涌现,充满了不确定性。传统的存储产品很难满足新业务从小到大的增长。用户希望不要花更多钱。专注于存储操作和维护,通过一组存储来支持业务变化。“

事实上,在FusionStorage 8.0开发之前,华为一直在酝酿产品。最后,华为将FusionStorage 8.0定位为战略平台产品。在保持分布式存储的灵活性和可扩展性的同时,华为还可以发展其他丰富的功能,包括文件系统,数据库,数据分析,数据湖等。用户可以通过FusionStorage 8.0构建自己的智能数据基础设施,满足智能时代数据存储,管理和分析的需求。

打开Ren Duo两个静脉的表现

分布式存储的最大优势是灵活性,可以帮助用户摆脱昂贵的高端硬件,并通过普通服务器为用户提供灵活,可扩展的存储服务。但是,分布式存储的性能往往容易遇到瓶颈。与使用“专用堆栈”优化性能的传统存储相比,分布式存储随着节点数量的增加而性能达到一定水平,往往是由于硬件,网络等原因造成的,我遇到了各种意想不到的“瓶颈”。因此,分布式存储单节点的稳定和优异性能是测试分布式存储颜色的重要因素。

在曹长斌看来,性能问题是FusionStorage 8.0开发中遇到的最大挑战之一。 “从项目设计来看,我们希望FusionStorage 8.0能够实现企业级全闪存阵列的性能,单节点性能为140,000 IOPS,延迟控制在1毫秒内,可以承载企业级关键应用。研发团队这已经做了很多预研工作。然而,在实际的研发过程中,确实遇到了巨大的挑战。“曹长斌所说的挑战是性能波动问题。分布式存储节点的性能波动是大而不稳定。这给整体分布式存储性能提升带来了瓶颈。

在FusionStorage 8.0开发之初,单节点性能达到 IOPS。使研发团队更加麻烦的是,有许多“看不见的瓶颈”会导致性能波动,这需要开发人员一个接一个地找到并解决它们。曹长斌说:“在解决整个绩效波动问题前后花了4个月时间,几乎每天凌晨2点或3点就进行了讨论和研究。”

为此,在此期间,华为的存储研发团队联系了华为全球研发系统中的操作系统调度专家和网络专家,从不同角度探讨了性能波动问题。”我们首先发现了中断分布不均匀的问题。一些服务器被过度中断,导致服务器性能无法发挥。因此,在研究了多个场景后,中断分布均匀,单个节点的性能提高了20%。此后,研发团队对业务干扰、软件栈、分布式锁等进行了优化,最终实现了原设计的性能目标。

经过华为研发团队优化登陆再优化的螺旋式提升,FusionStore8.0开启了rendu双向性能,对服务器硬件和网络的控制越来越精确,实现了稳定的单节点 IOPS。性。

创建强大的存储生命线

随着FusionStore8.0性能的不断提高,华为的存储研发团队面临着一个巨大的挑战:如何在高性能、大并发数据读写的情况下保持数据一致性。

保持数据的可靠性和一致性一直是存储产品的生命线。 “在存储产品中,数据一致性是核心的核心。如果写入的数据与读取的数据不同,则会对用户的业务产生巨大影响。”曹长斌说。与传统存储不同,由于使用通用服务器硬件,分布式存储产品必须采用不同的方法来实现可靠和一致的数据。随着集群节点的不断扩展,分布式存储系统的复杂性也随之增加。它还对数据一致性提出了更大的挑战。

在FusionStorage 8.0的性能调优过程中,华为存储研发团队遇到了更多的数据不一致问题。 “那时,为了提高性能,有些数据可能不会立即写入磁盘,而是写入内存。以前的一些并发机制导致旧数据覆盖新数据,并且数据不一致。”经过近一个月的重复研究,华为存储研发团队决定设计和开发一套新的日志记录机制和工具来解决数据不一致问题。 “通过新的日志记录机制,数据访问和数据放置前的导出,关键信息的打印,加上CRC检查,找到并解决数据不一致的问题。”曹长斌表示,“通过IO通道从开始到结束跟踪,可以专门定位整个IO通道的哪个模块,具体功能在具体模块中引起的数据不一致,促进层解决问题。“

在解决数据不一致的过程中,华为存储研发团队面临的最大困难是找出哪些IO导致高性能,大并发读写数据中的数据不一致。 “由于存在巨大的不确定性,数据不一致是存储行业中最困难和最大的挑战。跟踪和查看海量数据中的IO异常就像在大海捞针一样。”曹长斌回忆说,当时的情景依然生动。 “在整个过程中,整个团队经常需要转换班次来跟踪和查看夜间,逐周的IO异常情况。”

最后,华为存储研发团队在数百个节点,数百个节点,数千个节点等不同场景下完成了FusionStorage 8.0数据不一致性验证,解决了近30个业务IO异常问题。 FusionStorage 8.0强大的生命线。

功能与性能的完美平衡

在解决FusionStorage 8.0性能和数据一致性的挑战的同时,华为存储研发团队专注于如何解决性能和功能之间的平衡。如果你用一个比喻来描述表演和功能之间的关系,那么鱼和熊掌不可能是最真实的写照。例如,重复数据删除和压缩已存在很长时间,但业界仍然无法平衡分布式存储上的重复数据删除和存储性能。

“重复数据删除压缩功能实际上是对IO通道的一种操作,它对存储性能有很大影响。与在线重复数据删除一样,分布式存储的性能要求非常高,而离线重复数据删除具有存储介质的寿命。存储产品。影响。“曹长斌说。

为此,华为存储研发团队在FusionStorage 件,加权算法用于实现重复数据删除功能。适应调整。 “该团队在开发此加权算法之前和之后花了将近两个月的时间。通过反复的理论推导和调整,FusionStorage 件下,业界的重复数据删除压缩功能可以将性能影响30%-50%; FusionStorage 8.0重复数据删除压缩功能的自适应机制可以将对主机性能的影响降低到15%以下,一旦达到15%,就会自动切换到后端重复数据删除。

在海量数据成为常态的情况下,分布式存储的数据可用性变得至关重要。分布式存储中的冗余可以提高数据可靠性和存储系统可用性。通常,业界使用多个副本或Erasure Coding(EC)来实现数据冗余。与多拷贝的巨大存储消耗相比,擦除代码技术可以在更小的存储空间中实现更好的容错性和安全性,而且对存储系统的性能也有更大的影响。因此,分布式存储中的擦除代码功能如何实现存储空间利用和性能成为业界的问题。

“EC功能有两个主要问题。一个是打开功能后对主机性能的影响。一些存储产品在打开功能后会影响主机性能约30%。另一个是如何曹长斌表示,为此,华为的存储研发团队设计了多种型号和替代方案,以减少EC功能对主机性能的影响。经过多次验证,华为智能增强型EC功能达到了完美的平衡。表现和能力。

“在高并发和高负载的情况下,智能增强型EC功能通过IO聚合解决性能问题,并利用存储磁盘的特性将随机读写更改为顺序读写。此外,对于大型 - 缩放EC,我们采用额外的写入模式意味着当您修改某个数据时,您不需要读取旧数据和校验和,这大大降低了对性能的影响。“

使存储更智能

多年来,存储一直受到批评,包括复杂性,如何规划和分配容量,如何优先考虑QoS优先级,如何使用资源,何时扩展,如何检测和处理故障等。这一系列问题将涉及用户很多精力和时间。如何使存储智能化,这是存储的未来发展趋势,而FusionStorage 8.0正在全面进步。

存储智能是智能时代用户不可避免的吸引力。为此,华为首次将人工智能技术集成到FusionStorage 8.0的存储生命周期管理中,并在资源规划,服务提供,系统调优,风险预测和故障定位等方面实施智能运维管理。

据华为公司称,FusionStorage 8.0可以预测存储资源规划中60天的性能容量趋势。它还有1000多个应用程序模板来实现一键式资源分配。它也可以是个性化和100%SLA。声明;超过2000个故障模式库,93%的问题可以给出解决方案。

实际上,存储是利用人工智能技术的理想环境。利用丰富的状态数据和信息以及固定的业务场景,可以轻松形成收集状态数据,机器学习和培训,预测和智能决策的闭环。持续的学习和培训使存储操作和管理更加智能化。

FusionStorage 8.0在智能方面的突破也基于云培训+本地培训。云有超过2 PB的特征数据和1000个场景。通过云和云的组合和协作,可以实现本地增强培训和本地培训。改善您的个性化体验。

让数据永远持续

“我们需要尽一切可能防止新产品中的数据丢失并进一步提高数据可靠性。”

事实上,在数字时代,数据已经成为一种生产手段,数据正在成为企业和组织生存的基本资源。而且,与信息时代相比,用户需要在数字时代面对更多的数据类型和更复杂的应用场景。例如,物联网的应用场景逐渐丰富,业务与云之间的连接变得越来越频繁,这也导致越来越多的潜在数据丢失因素。

如何在保持可靠性检查的有限空间内适应这些场景的可靠性。

“这确实是一个非常具有挑战性的问题。华为在FusionStorage 8.0中包含了一个支持30多种数据丢失场景的可靠性解决方案,但可靠性验证的空间只有64个字节。充分利用64个字节使用一个字节非常困难为了容纳30多个场景,“曹长斌说。整个过程就像一个精确的操作,研究人员将每个预防程序“植入”到极其可靠的交易空间,精确到每一位。

更罕见的是数据丢失情景不是一次性收集。这是一个持续的过程。可靠性验证空间中的每个额外预防计划都需要确保解决方案可行。节省空间。曹长斌直言不讳地说:“这是一个无比精炼的过程。经过四到五次调整,整个数据丢失预防程序完美地存储在可靠性检查空间中。”

从跟随到分化

“我们希望在FusionStorage 8.0中与行业竞争对手有所不同,并形成我们自己的差异化优势。”作为华为存储研发的资深人士,曹长斌目睹并参与了FusionStorage的全过程,从1.0到8.0。

众所周知,存储是一个相对高科技,相对封闭的领域。外国存储巨头全年处于领先地位。多年来,中国本土存储品牌一直扮演着追随者的角色。曹长斌深深感受到这一点:“过去,竞争对手做了什么,我们遵循我们所做的,采用'我也是,但更便宜'的策略;然后随着我们不断发展,我们赶上技术层面并成为'我也是,但更好'。现在是寻求开发其他人没有的功能和技术,并确定他们自己的差异化优势。“

此外,华为还在灾难恢复和备份集成解决方案方面进行了创新,并利用其在通信网络领域的深厚积累,建立了存储+智能人工智能网络集成解决方案,大大提升了其竞争力。

“FusionStorage 8.0的成功开发是公司努力的结果,不仅是公司的成就,还有包括我在内的广泛研发团队成员的个人能力。我为此感到非常自豪。”曹长斌最后说道。

写在最后

华为FusionStorage诞生于2012年,源于“用普通服务器硬件构建企业存储系统”的理念。在此过程中,FusionStorage从1.0增长到8.0。这是华为存储精神的坚持和卓越。这也是华为存储人解决行业问题,逐步实现原创理念的过程。它也是从零开始的中国分布式存储。从弱到强的真实写照。

未来,随着5G,物联网和人工智能等应用的兴起,新数据将迎来一个新的,更加智能化的时代。华为FusionStorage 8.0不仅允许One Data Center One Storage(数据中心存储)在新的数据时代登陆,而且还打开了华为智能数据战略的新篇章。