爬虫—抓取表情党热门栏目名称及链接

发布时间：2024年01月14日

爬虫—抓取表情党热门栏目名称及链接

表情党网址：https://qq.yh31.com/

目标：抓取表情党主页的热门栏目名称及对应的链接，如下图所示：

Screenshot 2024-01-13 at 16.59.22

按F12（谷歌浏览器），进入开发者工具模式，进行页面分析，在Elements板块下，进入搜索栏（Ctrl+F），在框中输入“//div[@id=“dibu_cc”]//li/a“，可以匹配到所有的热门栏目a标签，如下图：

Screenshot 2024-01-13 at 18.01.26

源码如下：

import requests
from lxml import etree

url = 'https://qq.yh31.com'
headers= {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

res = requests.get(url, headers=headers)
tree = etree.HTML(res.content)

rm_lst = tree.xpath('//div[@id="dibu_cc"]//li/a')

for rm in rm_lst:
    print('热门栏目名称：', end=' ')
    print(rm.xpath('./text()'))
    print('热门栏目链接：', end=' ')
    print(url + rm.xpath('./@href')[0])

运行结果如下：

Screenshot 2024-01-13 at 18.14.42

文章来源:https://blog.csdn.net/weixin_41905135/article/details/135579286
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！