全闪存时代背景下,传统的FC(Fibre Channel,网状通道)存储网络已经无法满足全闪存数据中心的要求,NVMe(Non-Volatile Memory express,非易失性内存主机控制器接口规范)存储协议的出现极大提升了存储系统内部的存储吞吐性能、降低了传输时延,NoF(NVMe over Fabric)存储网络应运而生。
在多种Fabric技术中,NVMe over RoCE(RDMA over Converged Ethernet)被广大存储厂商所接受,成为业界NoF的主流。华为推出的NoF+存储网络解决方案,相较于标准NoF方案,在性能、可靠性、易用性上均实现了颠覆性改进,是全闪存时代的最佳选择。
2018 年起 SSD(Solid-State Drive,固态硬盘)全球发货量超过传统 HDD(Hard Disk Drive,机械硬盘),读写性能提升百倍。Gartner 预测,2022 年 SSD 在存储中占比将达到 52%,超越半壁江山,成为真正的主流。存储介质的百倍性能提升,驱动了存储协议从传统串行 SCSI(Small Computer Systems Interface,小型计算机系统接口)协议发展到高速并行的 NVMe 协议。新一代存储网络基于 RDMA(Remote Direct Memory Access,远程直接存储读取)技术,保证了全闪存 NVMe协议的高吞吐、低时延的特性。
智能时代各种新技术、新应用层出不穷,数据呈现爆发式增长,对存储网络的稳定性、可扩展性、易用性的要求逐步提高。首先就是更加强调高性能下的稳定性,存储作为数据中心底座,为了减少存储抖动放大对业务的影响,越是在高业务负荷承载的情况下越要保持稳定;其次,更多线下业务转型线上,数据流动性极大增强,这时就需要考虑如何能够满足网络大规模建设问题,未来必然需要扩展性更强大、产业可持续发展的网络;最后还要保障在大规模扩展建设情况下的易用性,以便很好地解决业务扩张带来的挑战。
传统 FC 存储网络成为存储产业瓶颈
FC 开发于 1988 年,初衷是用来提高硬盘协议的传输带宽,侧重于数据的快速、高效、可靠传输,早期应用于 SAN(Storage Area Network,存储局域网络)。到上世纪 90 年代末,FC 存储网络(FC SAN)开始得到大规模的应用。
FC 存储网络在高性能块存储网络独占鳌头已近 30 年,过去曾有 iSCSI(Internet Small Computer Systems Interface)、FCoE(Fibre Channel over Ethernet)等基于 IP 的新技术试图颠覆 FC 存储网络,但由于这些技术在性能和功能方面仍存在短板,所以只是替代了部分中低性能要求的场景,在高性能高可靠场景仍旧是 FC 存储网络的天下。
FC 存储网络具备高可靠、稳定低时延的特点:FC 内在的协议机制支持快速故障感知通告(百 ms 级),同时 FC B2B Credit 流控机制带来了稳定低时延性能。但 FC本身机制也带来了很多问题,传统 FC 存储网络已成为存储产业瓶颈:
NVMe over RoCE 成为 NoF 主流
随着存储介质从 HDD 发展到 SSD,存储高性能吞吐与 SCSI 协议传输较低性能吞吐之间的矛盾日益严重,从而出现了 NVMe 存储协议。NVMe 规范了 SSD 访问接口,简化了协议复杂性,充分利用 PCIe(Peripheral Component Interconnect Express)通道的低延时以及并行性,利用多核处理器,通过降低协议交互时延,增加协议并发能力,并且精简操作系统协议堆栈,显著提高了 SSD 的读写性能。
全场景闪存化推动了数据中心的网络改革,NVMe 最大化释放了 SSD 介质的能力。更快的存储呼吁更快的网络。NoF 存储网络应运而生,通过使用 IP 网络对专用网络的创新性革新,实现了更高的带宽和更低的时延,同时也兼具 IP 易管理的优势,是更好地实现端到端 NVMe 存储网络的最佳方案。
NoF 将 NVMe 协议应用到服务器主机前端,作为存储阵列与前端主机连接的通道,可端到端取代 SAN 网络中的 SCSI 协议,构建全以太的存储 SAN 网络。
NVMe over Fabric 中的“Fabric”,是 NVMe 的承载网络,这个网络可以是RoCE、FC 或 TCP。具体说明如下:
NVMe over FC 协议标准为 FC-NVMe,FC-NVMe 和 FC-SCSI 同样都基于 FCP,IO 交互基于 Exchange。FC-NVMe 基于传统的 FC 网络,通过升级主机驱动和交换机支持,FC-SCSI 和 FC-NVMe 能同时运行在同一个 FC 网络中。FC-NVMe 能最大化继承传统的 FC 网络,复用网络基础设施,基于 FC 物理网络发挥 NVMe新协议的优势。
NVMe over TCP 基于现有的 IP 网络,采用 TCP 协议传输 NVMe,在网络基础设施不变的情况下实现了端到端 NVMe。
NVMe over RoCE 是 NVMe over RDMA 的一种,RDMA 是承载 NoF 的原生网络协议,RDMA 协议除了 RoCE 外还包括 IB(InfiniBand)和 iWARP(Internet Wide Area RDMA Protocol)。其中,基于以太网的 RoCE 目前已成为 RDMA 的主流网络承载方式。NVMe over RDMA 协议比较简单,直接把 NVMe 的 IO 队列映射到 RDMA QP(Queue Pair)连接,通过 RDMA SEND,RDMA WRITE,RDMA READ 三个语义实现 IO 交互。NVMe over RoCE 基于融合以太网的RDMA 技术承载 NVMe 协议。
三种方案相比较,基于以太网的 RoCE 比 FC 性能更高(更高的带宽、更低的时延),同时兼具 TCP 的优势(全以太化、全 IP 化),因此 NVMe over RoCE 是 NoF最优的承载网络方案,也已成为业界 NoF 的主流技术。
NoF+存储网络,全闪存时代最佳选择
基于以太网的 RoCE 在存储性能、带宽方面比 FC 有显著优势,但替换 FC,联接全闪存,标准的 NVMe over RoCE 还需在 3 个方面加强完善:
基于当下业界主流的标准 NoF 方案,进一步从网络性能、可靠性和易用性这三点都进行提升,基于智能无损网络面向集中式存储场景提出了 NoF+解决方案,将数据中心存储网络进一步推向更广阔的发展空间。
网络性能增强:NoF+方案改变了传统以太静态水线方式,对网络预测性能力进行专项优化,通过样本计算,针对特定场景,通过算法进行精准的控制,从而预判业务对网络的诉求,提前做出优化,实现高吞吐带宽,进一步提升性能。
可靠性增强:保障业务系统可靠是存储的根基,比如存储的秒级切换功能就是可靠性的关键保障之一,标准以太缺乏故障主动发现和通知能力,NoF+实现了从事后被动响应到主动通知、提前识别拥塞和故障。当一个节点出现故障,业务会以亚秒级响应速度切换,在高性能运行的前提下,也能维持系统的稳定可靠。