集群的alert日志的核心报错为
2022-08-26 12:23:20.418 [OCSSD(5740)]CRS-1726: Process failed to run in real-time priority.
现象是rac出现突然的某个节点宕机,尝试启动该节点资源,或者启动进程均无法拉起
当时的rac版本为19.5
2870136.1
根据文档描述19.3-19.15都有该问题,可以通过打补丁解决,bug号为33610957
原理和cssd进程的抽查机制有关,cpu默认是有一定的slice供应前台,当出现无法获得实时cpu时即发生失败。
看外网博客Troubleshooting Oracle 19c RAC CSSD process cannot get real-timepriority | ANBOB
发现case1符合我们的情况,950000为默认参数
CASE 1
[root@oel7db1 ~]# sysctl -a 2>/dev/null |grep runtime
kernel.sched_rt_runtime_us = 950000
[root@oel7db1 ~]#
Add a line below into the bottom of the file /etc/sysctl.conf
kernel.sched_rt_runtime_us=-1
修改参数kernel.sched_rt_runtime_us=-1并生效
重启集群进程,集群恢复。
学习原理,积累工具。孵化思路,下笔有道