华为云Stack运维面集中告警可以集中监控系统服务或第三方系统的告警,快速定位已发生的故障,从而保证业务正常运行。集中告警致力于适配不断演进的复杂网络的监控和运维,不仅能支撑传统网络的故障监控与处理,还能对新一代网络进行故障监控,不断缩短故障恢复时长,提升网络运维效率
## AutoOps工具采集故障的场景
故障场景名称(中文) | 故障场景名称(英文) | 对应极限场景编码 |
---|---|---|
FS-01013 冷迁移虚拟机失败 | FS-01013 Failed to cold migrate a VM | FS-01013 |
FS-05004 主机状态异常 | FS-05004 Abnormal Host Status | FS-05004 |
FS-05006 虚拟机HA失败 | FS-05006 VM HA Failure | FS-05006 |
FS-01006 热迁移虚拟机失败 | FS-01006 Failed to migrate a VM | FS-01006 |
FS-01002 删除虚拟机失败 | FS-01002 Failed to delete a VM | FS-01002 |
FS-01003 启动虚拟机失败 | FS-01003 Failed to start a VM | FS-01003 |
FS-01004 停止虚拟机失败 | FS-01004 Failed to stop a VM | FS-01004 |
FS-01005 重启虚拟机失败 | FS-01005 Failed to restart a VM | FS-01005 |
FS-01007 克隆虚拟机失败 | FS-01007 Failed to clone a VM | FS-01007 |
FS-01009 VNC登录失败 | FS-01009 Failed to login with VNC window | FS-01009 |
AutoOps工具故障场景信息收集
使用AutoOps工具自动化信息收集,旨在优化运维模式,提升运维效率。支持:云档案、基础公共服务、基础云服务、网络服务、Openstack组件等信息的收集,内置的软件包提供的信息收集功能将可能会收集环境中的资源实例信息,包括但不限于:实例名称、IP地址、实例配置等(不包括租户相关账户、密码等)
利用自动化工具收集信息具有以下特点:
常见报错信息 | 可能原因 |
---|---|
create volume failed | 创建卷失败,云磁盘虚拟机创建分为2步:第一步,创建卷,第二步,根据卷创建虚拟机 |
no valid host | 没有可用主机 |
AvailabilityZoneFilter | 表示请求的az内没有找到合适的主机,注意az选择是否正确 |
ComputeFilter | 表示备选主机的compute进程挂了,这个时候会有组件异常告警 |
RamFilter | 表示备选主机的内存不足 |
HuaweiDiskFilter | 表示备选主机的磁盘空间不足 |
CoreFilter | 表示备选主机的vcpu数量不足 |
HuaweiAggregateInstanceExtraSpecsFilter | 表示备选主机没有在指定的主机组中,这种一般都是在规格flavor中添加了主机组标签错误导致,去掉标签或者改为正确的标签即可 |
常见ECS发放失败错误代码
告警信息比较直观和重要,如果发现环境有异常,首先要看告警界面上的告警信息,特别是组件异常类、主机状态异常,存储链路中断、时间不同步,网络中断类等严重告警,这些将直接影响业务的发放,其他告警可根据情况判断是否影响创建虚拟机。若查看到这类影响业务发放的告警,按照对应的产品文档对告警进行相应的处理
/var/log/fusionsphere/component/
目录下节点类型 | 服务 | 日志路径 |
---|---|---|
控制节点 | nova-* | /var/log/fusionsphere/component/nova-*/ |
控制节点 | glance-* | /var/log/fusionsphere/component/glance-*/ |
控制节点 | cinder-* | /var/log/fusionsphere/component/cinder-*/ |
控制节点 | keystone-* | /var/log/fusionsphere/component/keystone-*/ |
控制节点 | neutron-* | /var/log/fusionsphere/component/neutron-*/ |
控制节点 | horizon | /var/log/fusionsphere/component/horizon/ |
计算节点 | libvirt | /var/log/fusionsphere/component/lIbvirt/ |
块存储节点 | cinder-volume | /var/log/fusionsphere/component/cinder-volume/ |
CPT-SRV / 管理虚拟机 | Nova组合API | /var/log/apicom/taskmgr/ecm/ |
nova-api
:nova是否接受到用户组合API下发的创建虚拟机的请求日志。Nova-scheduler
:根据nova-api接受到的请求是否能够选择到一个合适的主机创建虚拟机日志;Nova-compute
:根据虚拟机的创建规格,主机是否有足够资源或条件满足虚拟机创建。Cinder-api
:接受创建卷请求日志Cinder-sheduler
:选择合适的卷。Cinder-volume
:创建卷的日志nova list --all-t |grep CPT-SRV
grep -rn
订单号 /var/log/apicom/taskmgr/
找到以_api
结尾的日志文件,然后进入该日志文件,根据订单号往下翻,找到与之相近的job_id;然后用job_id进入与之对应的executor.log里找日志;grep -rn 订单号 /var/log/apicom/taskmgr/
nova list --all-t | grep vm_name
nova list --all-t --delete | grep vm_name
nova instance-action-list vm_id
zgrep vm_name /var/log/fusionsphere/component/nova-api/* |grep create
cps template-instance-list –-service nova nova-api
确认,再根据回显优先登录active的nova-api所在控制节点查找日志。根据虚拟机ID,登录控制节点,导入环境变量后,执行如下命令,查看虚拟机create操作的req_id
根据req_id,查看nova-scheduler日志查询失败过滤器,如失败则过滤器为HuaweiAggregateInstanceExtraSpecsFilter。失败代码原因参考第19张 “常见错误代码”,解决方法参考第下面标题HuaweiAggregateInstanceExtraSpecsFilter过滤失败
zgrep req-id /var/log/fusionsphere/component/nova-scheduler/* | grep hw_agg_instance_extra_specs,req-id
'set([u'IOoptimized'])' do not match 'IOoptimized2'
Extra_spec resource_type is not in aggregate
CPS上创建一个新的主机组,新的主机组规格与ECS规格保持一致
zgrep req-9f7cbe5b-dac5-4ca1-a036-5173073ec764 /var/log/fusionsphere/component/nova-scheduler/* | grep Sele
cat var/log/fusionsphere/component/nova-compute/nova-compute_error.log.100 |grep error
常见ECS发放错误代码
为主机磁盘空间不足nova flavor-show flavor_id
df -h
zgrep (req-id) /var/log/fusionsphere/component/nova-scheduler/* | grep disk_filter req-id
获取参考标题如何获取req-id”
见下面博客