自建starrocks集群,有时候服务会挂掉,无法自动拉起服务,于是采用supervisor进行进程守护。可能是版本的原因,supervisor程序总是异常,无法对fe//be进行守护。于是写了个简易脚本。
#!/bin/bash
AppNameFe=com.starrocks.StarRocksFE
AppPortFe=9030
AppNameBe=starrocks_be
AppPortBe=9050
Dtime="$(date +%Y%m%d%H%M%S)"
while true
do
#这里查询指定的app是否运行,查询的时候去除包含grep的结果,如果没有改进程,返回空字符串
appFind=`ps -ef | grep ${AppNameFe} | grep -v grep`
appRunid=`ss -tlnp|grep ${AppPortFe}|awk -F',' '{print $2}'|awk -F'=' '{print $2}'`
findNum=${#appFind}
findPort=${#appRunid}
if [ ${findNum} -lt 1 ] | [ ${findPort} -lt 1 ];then
#相对路径,执行与shell脚本同目录下的程序
echo "$Dtime fe进程异常,${AppPortFe} 端口不存在,现拉起服务..." >> /tmp/programfude.log
/opt/StarRocks/fe/bin/stop_fe.sh
sleep 3s
/opt/StarRocks/fe/bin/start_fe.sh --daemon
fi
#这里查询指定的app是否运行,查询的时候去除包含grep的结果,如果没有改进程,返回空字符串
appFind=`ps -ef | grep ${AppNameBe} | grep -v grep`
appRunid=`ss -tlnp|grep ${AppPortBe}|awk -F',' '{print $2}'|awk -F'=' '{print $2}'`
findNum=${#appFind}
findPort=${#appRunid}
if [ ${findNum} -lt 1 ] | [ ${findPort} -lt 1 ];then
#相对路径,执行与shell脚本同目录下的程序
echo "$Dtime be进程异常,${AppPortBe}端口不存在,现拉起服务..." >> /tmp/fudeservice.log
/opt/StarRocks/be/bin/stop_be.sh
sleep 3s
/opt/StarRocks/be/bin/start_be.sh --daemon
fi
#每30秒查询一次,所以sleep60,根据所需调整,单位为秒
sleep 30
done
chmod +x processdaemon.sh
nohup ./processdaemon.sh &