对于子嵌套的页面,我们直接标签定位会报错,如下面代码
from selenium import webdriver
from selenium.webdriver.common.by import By
#浏览器驱动
bro=webdriver.Chrome()
#目标网址
bro.get('https://www.runoob.com/html/html-iframes.html')
#标签定位
a=bro.find_element(By.CLASS_NAME,'item-to')
print(a)
所以我们要切换作用域,根据iframe标签的id转入iframe框架,再进行后续操作。
操作完成后返回主框架
from selenium import webdriver
from selenium.webdriver.common.by import By
#浏览器驱动
bro=webdriver.Chrome()
#目标网址
bro.get('https://www.runoob.com/html/html-iframes.html')
bro.switch_to.frame(1)
#bro.switch_to.frame(iframe_id)
#标签定位
a=bro.find_element(By.CLASS_NAME,'item-top')
#返回主框架
bro.switch_to.default_content()
print(a)
源码语法请看下图?
我们来模拟登录进行简单案例加以巩固,比如qq空间登录界面。
现在一般来说,进入qq空间官网都会显示二维码登录,所以,我们要定位到账号密码登录界面
?然后我们还发现,在输入界面还使用了子框架
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
#浏览器驱动
bro=webdriver.Chrome()
#目标网址
bro.get('https://qzone.qq.com/')
#切入子框架中
bro.switch_to.frame('login_frame')
#标签定位到-密码登录
bin=bro.find_element(By.ID,'switcher_plogin')
bin.click()#点击进去
uer=bro.find_element(By.ID,'u')#定位账号
pass_word=bro.find_element(By.ID,'p')#定位密码
uer.send_keys("1248820171")#输入账号
pass_word.send_keys('1234566555')#输入密码
bro.find_element(By.ID,'login_button').click()#点击登录
sleep(5)
#释放浏览器
bro.quit()
在爬取数据的过程中,突然间浏览器蹦出来直接吓一跳,那么有没有什么办法,可以关闭界面还能保证爬取工作正常进行呢?下面就要介绍谷歌的无头浏览器。
如何防止服务器端监听到是selenium爬虫呢 ,我们有下面的反爬策略进行规避
即导入一个包from selenium.webdriver import ChromeOptions