Python爬虫练习:爬取网页需要信息

发布时间:2024年01月13日

首先要下载requests和lxml模块

命令为:pip install requests 和pip install lxml

第一步导入模块,发送请求,获取数据,并存入文件01.html

此时01.html为?(说明已经存入)

第二步:从01.html中读取数据,处理数据(获取标题)

reslutData打印结果:

?

第三步将处理过后的数据存入title.csv文件,最前面加上:热点事件:

?

此时我们就得到了结果文件title.csv:

最后送上所有代码:

import csv
# 因为要将文件存为csv格式
import requests
from lxml import etree

url="https://www.zj.gov.cn/"

# content=requests.get(url).text
# 上面这种方法无法处理乱码--不采用

# 采用下面这种
content=requests.get(url).content.decode()
# print(content)

with open("01.html",'w',encoding="utf-8") as f:
    f.write(content)


f=open("01.html",'r',encoding="utf-8")

readData=f.read()
texts=etree.HTML(readData)
# 转化为html格式

reslutData=texts.xpath("//span[@class=\"Title\"]/text()")
# 如上图所示我们要的是带有Title类的span标签
print(reslutData)


with open("title.csv","w",encoding="utf-8",newline="") as f:
    # newline参数可以帮助处理换行符解析的问题
    writer=csv.writer(f)
    # writer()的功能是创建一个常规Writer的对象,但是调用writer()
    # 的writerow / writerows方法是要传入的是列表类型数据。所以下面输入数据要加[]
    writer.writerow(['热点事件:'])
    for i in reslutData:
        writer.writerow([i])

?

?

文章来源:https://blog.csdn.net/zxn275266/article/details/135533241
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。