现场服务器告警灯亮,其他服务器正常,磁盘灯正常,所以从整体来看应是内部部件抛出的异常问题,需要登录机器确认:
通过ILOM web界面查看服务器状态进行信息收集:
以上内容,可以看到报错是/SYS/MB/P0,并且服务器重启过一次。报CPU的问题,貌似比较严重,验证当前CPU情况同步查询相应官方文档。
磁盘服务状态正常:
CPU 64输出没问题:
官方文档:
严重程度是危急的,通过ilom命令行确定损坏部件状态:
PCIE7应该是cpu0的插槽(PCle Slot 7)
以上确定我系统是在正常运行情况下,并且输出cpu正常,判断为临时性错误,或ilom监测异常导致,尝试清掉报错。
ssh -l root <ilom ipaddr>
依次将/SYS/MB/P0和/SYS完成清除,进行确认
start /SYS/faultmgmt/shell
fmadm faulty -a
通过ilom web再次确认状态: