当 IT 系统出现故障,问题定位往往是运维人员最头疼的环节。尤其是超融合系统,由于整体涉及的技术栈比较复杂,且有越来越多的用户基于信创环境进行部署,非常考验厂商和技术人员的专业能力:厂商研发和售后工程师不仅应能快速定位自家产品的问题,还可帮助用户定位和解决相关硬件、存储、虚拟化、宿主机操作系统等不同层面的故障。
得益于核心组件的自主研发能力、深度的信创生态支持和专业的技术团队实力,SmartX 可为用户提供“全栈”的超融合系统故障定位与解决支持,帮助用户解决基础设施软硬件(含信创技术栈)多个层面的技术问题。下面,我们将通过 3 个案例,分享 SmartX 技术人员在硬件、虚拟化平台和虚拟机层面的故障定位与处理经验。
某制造业用户在使用 SmartX 超融合时多次触发“存储平均延迟超过 2s”的告警(未产生使用影响)。得到联系后,SmartX 工程师为客户提供了远程排查,发现所有节点均存在零星的 Slow I/O,但并没有检测到异常磁盘。工程师进一步检查了各个节点的日志,发现在发生 Slow I/O 时存在异常日志:
一线工程师与开发团队共同分析后,判断该日志为 SSD I/O 太慢导致的。经过进一步排查,工程师排除了 HBA 卡的问题,在检查 SSD 时,发现服务器厂商提供的硬件与客户要求的不一致,可能由于 SSD 兼容性问题导致 I/O 延迟。随后 SmartX 帮助用户多次与服务器供应商及硬件厂商沟通、测试,证实该 SSD 确实不符合客户预期,且由于硬盘自身的资源回收机制存在问题,会导致性能下降,因此触发了告警。SmartX 随即协助客户完成了 SSD 更换,有效解决了这一问题。
某金融机构在 ARM 架构信创环境部署 SmartX 超融合集群(基于原生虚拟化 ELF),在正常运行时,发生虚拟机暂停现象,从运维管理界面观察到虚拟机处于暂停状态,无法 ping 通,无法对外提供服务。
为了方便故障排查,同时保证当前业务的正常进行,SmartX 工程师利用 SmartX 超融合快速克隆功能新建一台虚拟机供用户临时使用,随后协助用户进行远程诊断。在检查日志时,SmartX 工程师发现“kernel: kvm[74555]: Unexpected L2 read permission error”记录,且发生时间与虚拟机暂停的时间点基本吻合。基于这一线索,工程师高度怀疑虚拟机暂停与 KVM 有关,并协调服务器厂商一起进行问题排查。
为了避免再发生虚拟机暂停的情况,SmartX 先为用户提供了一个临时方案,该方案能够在 2 分钟内发现暂停的虚拟机,并以邮件方式通知管理员,由管理员操作恢复虚拟机。同时,SmartX 开发团队在进一步分析后发现了问题原因:当虚拟机里产生缺页中断,会进入 KVM 申请内存,这时 KVM 对内存页交换条件进行了错误判断,导致虚拟机申请内存失败,进而导致暂停。
定位问题后,SmartX 开发团队在一周内就提供了 Kernel Patch,通过仅修改判断条件而不改动 Kernel 和 Swap 的方式解决了该问题。用户在测试集群更新 Patch 包后,虚拟机正常运行,并于 3 周后对生产集群进行了升级,再未出现虚拟机暂停的情况。
某金融用户信创超融合集群(基于 ARM 架构的信创操作系统)在编辑虚拟网卡关联网络后,发生虚拟机网卡丢失的现象。SmartX 工程师在初步检查后,发现用户原 POC 环境中并未出现该问题,再次测试验证后,初步判断该问题是由于跨 VDS 修改网卡网络导致的:在正式集群中,虚拟机网卡关联网络跨越了不同的 VDS,可能存在虚拟机内部无法识别网卡的情况,而 POC 环境不存在跨 VDS 的情况。
为了进一步准确根因,SmartX 研发团队检查了 Guest OS 内部日志,并开展了多次复现测试,针对虚拟机开关机状态、虚拟 PCI 插槽、热插拔时间间隔等因素进行逐一排查。最后发现,仅当 Guest OS 为某国产操作系统特定版本时,基于同一虚拟 PCI 插槽执行热拔设备后立即执行热插设备操作,操作系统的 Kernel pciehp 驱动中断处理异常,会导致热插设备被自动卸载。后经研发团队反复测试,将安全热插拔间隔时间确定在 3 秒及以上。
针对这一问题,SmartX 为用户提供了 Patch,确保用户在该操作系统上能够正常进行网络切换,随后与操作系统厂商进行了沟通,由操作系统厂商进一步定位并修复了该问题。
SmartX 技术团队卓越的故障定位与解决能力,不仅源自于过硬的专业技能,更得益于 SmartX 核心组件自主研发,和信创技术栈的深度适配:
欲详细了解 SmartX 超融合信创适配与运维支持特性,请阅读:
您还可点击阅读电子书《超融合技术原理与特性解析合集:管理与运维》,了解 SmartX 超融合如何通过磁盘健康检测、存储性能管理、弹性扩容等特性,降低用户运维压力。