金融领域的自主创新已成为金融机构战略布局的核心,它不仅极大提升了科技在金融领域的赋能水平,而且在确保金融信息化核心技术的自主可控方面发挥着至关重要的作用。中国邮政储蓄银行,作为这一战略的坚定执行者,正积极致力于加强其基础平台的建设能力,并不断推动科技与业务的深层次地融合。通过科学技术创新,引领金融服务向更高效、更智能的方向转型升级。
网络和存储作为金融IT基础设施的重要底座,为金融业务数字化提供了坚实保障。高速、稳定、可靠的存储数据转发是业务正常运行的重要的条件,然而随着数据流量的日渐增长和网络架构的日益复杂,存储网络急需突破性能瓶颈。
中国邮政储蓄银行经过深入研究,通过高性能RoCE网络与高性能NVMe存储技术相结合的NVMe Over RoCE技术,构建了新一代高性能存储网络体系。该方案不仅提升了存储数据的转发效率,还通过“标准化、模块化”的建设模式,保障了云平台的持续交付、持续演进。
新一代高性能存储网络实现了25GE接入、100GE上行,并具备向100GE接入、400GE上行的平滑演进能力,充分的发挥了全闪存百万级IOPS的优势,满足未来存储数据容量PB级的发展需求。同时,突破了以太网超长距传输的局限,实现了跨数据中心间的长距无损传输,并能在故障场景下快速感知主机、存储和网络的状态变化,通报主机进行多路径切换,实现端到端切换时间小于1秒,确保系统的高可靠。
通过运行以太网交换机和IP、RoCE的通用存储网络协议,构建了更标准、开放的存储网络,与主流的操作系统协同对接,提升了存储网络的标准化和开放性,增强了核心生产系统的自主可控能力。
新一代高性能存储网络实现了数据中心内SAN网络与普通业务场景的LAN网络无缝对接,实现存储服务器可云化,降低了管理复杂度和运维成本,提升了整个IT基础设施的自动化水平和业务敏捷性。
NoF+存储网络在运维过程中面临网络性能指标难观测、故障难定界等挑战:一方面,存储业务对时延等异常指标敏感,但ROCE网络关键的性能指标劣化和PFC死锁等情况往往难以主动监测到。为提升服务质量,我们希望能实现NoF+存储网络的SLA可视化,在指标性能指标下降时能主动及时捕捉到;另一方面,存储业务质量变差时,由于拥塞突发等问题导致的业务性能直线下降或者波动,网络运维系统无法主动感知到这些异常,依赖人工分析日志告警,缺乏有效的网络故障智能分析和系统性风险评估机制,难以快速感知并界定问题点。
邮储银行坚持科技兴行理念,不断加大金融科学技术创新投入,驱动运维进行数智化转型。为越来越好的保障使用者真实的体验,邮储银行联合华为等团队开展创新实践,通过构筑“基础网络-RoCE-NoF” 3层运维体系,全场景提升NoF+存储网络运维效率。
在日常监控场景,邮储银行利用Telemetry技术主动订阅网络数据,构建统一的数据底座,实现了对网络健康状态的实时监控。智能分析平台数据分析对象覆盖了从设备到单板、接口、队列、光模块、PFC等多重维度,监测精度最低可达到100毫秒。同时,系统通过一系列分析历史网络数据,自主构建关键性能指标的动态基线,并进行每日的自动化更新,以智能化方式识别网络性能的异常波动;系统还整合了告警信息、性能指标、配置比对和数据表项等多源数据,进行深入的关联性分析,从而明显提升运维团队在异常监测和响应方面的效率。
为了提升故障定位分析效率,邮储银行引入知识图谱技术,将网络进行知识图谱建模,并关联时间、空间多维事件数据,通过智能算法进行关联性分析。在实践过程中,针对常见的90多种故障,如PFC死锁、无损队列丢包等问题,智能分析平台可分钟级上报故障,自动化溯源,分析问题原因以及网络的影响区域,相比以前人工分析指标和海量告警日志,有效缩短了定位分析时间。
为了从根源上减少故障发生的概率,需要例行系统性的排查网络中的潜在风险。邮储银行将NoF+存储网络分为设备、网络、协议三个层面,结合知识图谱的数据底座,进行整网风险的建模和特征智能识别,多维度分析评估NoF+存储网络有几率存在的40多种风险项,并每日推送网络健康报告,实现网络风险可视、可分析、可预防,有效支撑网络健康稳定运行。
展望未来,邮储银行将继续深化NoF+网络发展与运维创新,构建更加智能和高效的算力平台,并基于我行自身工具多、数据多、手册多、处置复杂等情况,结合大模型学习各知识、整合各工具,构建一个高度自主、智能的运维平台,实现故障影响分析、处置建议推荐等交互式运维场景功能,构建邮储特色的网络运维大模型,降低运维成本,提升运维效率,为业务增长提供强有力的支撑。