排障启示录-AP无法发现、离线类问题

发布时间:2023年12月21日

目录

WLAN

一、AP上线类问题

1、AP的状态

二、AP上线类问题故障定位

1、AP无法发现控制器

1.1、同二层无法发现

1.2、跨三层无法发现

2、排查步骤

2.1、二层无法发现

信息收集:

2.2、跨三层无法发现

a、网络不通

b、udp 7777端口不通(常见远程部署)

c、跨三层的发现方式配置错误

2.3、AP激活后无法上线

可能原因:

信息收集:

2.4、AP异常离线

信息收集:

思路验证:

1、批量AP离线

2、个别AP离线

三、AP激活原理

1、AP发现控制器方式

1.1、静态固定控制器IP

1.2、DNS方式

1.3、wenbagent方式

1.4、dhcp option43方式

1.5 广播发现

1.6、二层广播

1.7、云发现方式

2、AP激活原理

交换机

一、vlan内无法访问

1、信息收集


WLAN

一、AP上线类问题

1、AP的状态

在线:表示AP正常在线

离线:AP离线,无法正常工作

待修复:表示AP和控制器之间二层隧道互通(包括控制隧道和数据隧道),有可能是未获取到IP

二、AP上线类问题故障定位

1、AP无法发现控制器

1.1、同二层无法发现

????????二层环路问题

? ? ? ? 二层存在多台NAC

? ? ? ? AP为胖模式

? ? ? ? AP供电异常

? ? ? ? AP网口协商速率异常

1.2、跨三层无法发现

? ? ? ? 网络不通

? ? ? ? 端口不通

? ? ? ? 跨三层发现方式配置错误

? ? ? ? 发现方式问题

2、排查步骤

2.1、二层无法发现
信息收集:

a、登录web界面,在控制器上查看网络种是否存在流量异常高的情况。

b、向现场核查是否存在多台NAC的情况,判断同二层是否存在多个NAC,可能导致AP上线到另一台NAC上,而需要上线的NAC无法发现AP

c、AP是胖模式,通过trou扫描,查看AP状态,只有瘦AP才可以上线NAC

d、AP供电异常或者AP网口协商速率异常会导致trou同二层扫描不到AP

2.2、跨三层无法发现
a、网络不通

跨三层不通,很有可能是路由不同,检查AP所在段ping控制器是否可通,无法可通说明路由有问题

重点检查:

ap的网关或掩码写错

控制器为写静态路由指向核心

b、udp 7777端口不通(常见远程部署)

使用trou登录AP,通过udpconnect测试到公网控制器7777端口联通性

检查出口设备上端口映射情况,确认udp7777端口映射成功

若以上无问题,可通过出口抓7777的报文,判断AP是否发出报文

c、跨三层的发现方式配置错误

option 43字段在友商SW上配置错误;

DNS host文件解析出来的地址配置错误;

trou扫描指定发现控制器IP错误;

2.3、AP激活后无法上线

现象:AP激活后无法发现

可能原因:

AP固定IP地址错误

AP发现控制器IP配置错误

AP上联交换机的下联接口配置错误

AP高版本与NAC配置不兼容

检查AP是否属于被裁剪的硬件型号,

信息收集:

1、检查AP发现控制器的IP是是否配置有问题

2、检查AP是否获取或配置正确的IP地址

3、检查AP上联SW的下联口native vlan配置是否正确

4、检查AP高版本问题

5、查看当前AP是否在被裁剪型号AP列表内

2.4、AP异常离线

信息收集:

1、收集NAC与AP之间的网络拓扑,本地部署二层环境,本地部署跨三层环境,远程部署公网环境,远程部署vpn场景

2、确认是个别AP还是批量AP离线

3、批量AP离线,确定AP离线范围,是所有AP还是一栋楼层的AP离线,还是一个SW上的AP离线

思路验证:
1、批量AP离线

所有AP离线,查看控制器是否重启,控制器到核心以及核心到汇聚之间的配置是否变更

控制器与核心之间互联接口updown状态,核心与控制器互联接口流量是否剧增,核心SW是否重启

远程部署所有AP离线,查看7070端口映射是否变更,7070端口不通

一栋楼层的AP离线或者一个SW上的AP离线,查看汇聚和接入SW的配置是否变更,是否存在环路,是否重启,上行接口是否频繁updown

查看AP分组的主控制器IP是否配置错误

网络中运行了STP协议,STP频繁收敛

2、个别AP离线

检查poe供电、线路、更换端口或者线路测试

查看是否是IP地址冲突

查看AP似乎否重启,通过uptime命令,查看AP是否有bugreport或错误报告

三、AP激活原理

1、AP发现控制器方式

1.1、静态固定控制器IP

通过trouble shoot扫描,手动固定控制器IP,AP回通过udp 7777 发现请求报文;

1.2、DNS方式

AP回默认向www.sangforwlanac.com和www.wlanadmin.com发起dns请求,通过解析出来的IP,通过udp 7777端口发出请求报文

1.3、wenbagent方式

当ap和控制器关联到同一个webagent服务器时,控制器每隔1分钟向webagent服务器发送get请求去更新地址到webagent,AP可通过webagent服务器获取控制器的最新地址,适用于pppoe拨号,IP地址不固定的情况。

使用udp 7777端口发现请求报文

1.4、dhcp option43方式

AP通过DHCP Server获取IP地址以及Option43属性,AP从Option43属性中获取控制器发现地址,AP向该IP单播发送UDP7777发现请求报文,控制器收到后,发现新接入点将会出现该AP信息。

1.5 广播发现

当AP通过DHCP Server获取到IP地址后,会通过广播的方式发起UDP7777的发现控制器请求,控制器收到后,发现新接入点将会出现该AP信息。

1.6、二层广播

当AP处于无IP的状态,且所处的网络也没有DHCP服务器,那么此AP将一直没有IP地址,因此在二层网络上使用MAC地址发送0xa999广播报文发现控制器。在此种方式下AP只能通过二层网络发送广播包去发现控制器。

此时在未激活未给AP配置IP地址前,不会生成/tmp/discover_output.xml,需要激活后才会生成

1.7、云发现方式

云发现原理

控制器页面新增云发现的AP、SFG或RS后,控制器将AP、SFG或RS的信息全量上报给云,云收到后写到云的数据库;AP、SFG或RS定时访问云查找与自身MAC和SN码匹配的控制器的ip,并向对应控制器发送请求连接报文,从而上线。

控制器上报原理

1、定时上报云发现设备:默认为1小时上报一次

2、对设备列表的修改,全部以全量同步的方式进行(全量同步6w个ap的流量,大概在2M左右) 因为云上AP和SFG云发现信息存储在同一个表,所以当SFG更新或者AP有一个更新就需要进行一次SFG和AP数据的全量上报 RS可以单独上报,因为RS单独占用一个表

3、导入和删除设备,导致配置变更,变更时将设置3min定时器。如果3min内,有新的变更操作,则再次推迟3min,直到配置更新后长达3min无操作后,进行更新。(这么做的目的是为了避免添加删除一个或几个设备时,触发多次同步。

云发现特殊机制

1、AP/SFG/RS 在上线后将保留一个密钥。当再次连接云时,将查询云端的控制器地址,此时该云端控制器地址密钥和自身密钥匹配,才可返回发现地址。

2、多个控制器都向云端上报同一个AP/SFG/RS的发现信息时,云端将保留首个控制器的上报信息,其他控制器上报信息时,将比对易部署密钥是否匹配,匹配了才可更改。例如:AP在控制器A配置过云发现,想让这个AP在控制器B通过云发现上线,控制器B需要上传超级密钥。

2、AP激活原理

二层激活原理

三层激活

交换机

一、vlan内无法访问

1、信息收集

a、检查端口是否up,链路是否正常

b、对应端口是否放通对应的vlan,对应的vlan是否创建

c、检查mac地址表,对应的出接口是否正确

d、检测是否在端口做了acl

e、检查网络中是否存在环路

f、检查是否在该交换机上开启了端口隔离

收集信息,把快乐与专家、研发同事一起分享

文章来源:https://blog.csdn.net/qq_52655865/article/details/135112799
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。