C#攻克反爬虫之代理IP爬取

using System;
using System.Net.Http;
using HtmlAgilityPack;

class Program
{
? ? static async Task Main(string[] args)
? ? {
? ? ? ? var httpClient = new HttpClient();
? ? ? ? var html = await httpClient.GetStringAsync("https://www.freeip.top/?page=1");

? ? ? ? var htmlDocument = new HtmlDocument();
? ? ? ? htmlDocument.LoadHtml(html);

? ? ? ? var ipNodes = htmlDocument.DocumentNode.SelectNodes("//tbody/tr/td[1]");
? ? ? ? var portNodes = htmlDocument.DocumentNode.SelectNodes("//tbody/tr/td[2]");

? ? ? ? foreach (var ipNode in ipNodes)
? ? ? ? {
? ? ? ? ? ? Console.WriteLine(ipNode.InnerText);
? ? ? ? }

? ? ? ? foreach (var portNode in portNodes)
? ? ? ? {
? ? ? ? ? ? Console.WriteLine(portNode.InnerText);
? ? ? ? }
? ? }
}

以上代码使用HttpClient库发送GET请求获取代理IP网站的HTML代码，然后使用HtmlAgilityPack库将HTML代码解析成DOM树，然后通过XPath选择器提取出IP地址和端口号。

3. 使用代理IP发送请求

获取到代理IP后，我们可以使用HttpClient库进行访问目标网站。以下代码演示了如何使用代理IP发送GET请求：

static async Task Main(string[] args)
{
? ? var httpClientHandler = new HttpClientHandler()
? ? {
? ? ? ? UseProxy = true,
? ? ? ? Proxy = new WebProxy("127.0.0.1", 8888) // 代理IP地址和端口号
? ? };

? ? var httpClient = new HttpClient(httpClientHandler);
? ? var html = await httpClient.GetStringAsync("https://www.example.com");

? ? Console.WriteLine(html);
}

以上代码创建了一个HttpClientHandler对象，设置了代理IP地址和端口号，然后将该对象传递给HttpClient对象。接下来，使用HttpClient对象发送GET请求获取目标网站的内容。

四、常见问题及解决方案

1. 代理IP的可用性

免费代理IP网站提供的代理IP质量参差不齐，有些代理IP可能已经失效。为了保证代理IP的可用性，我们可以使用多线程进行代理IP的检测。以下代码演示了如何使用多线程进行代理IP的检测：

static async Task Main(string[] args)
{
? ? var httpClient = new HttpClient();
? ? var html = await httpClient.GetStringAsync("https://www.zdaye.com");

? ? var htmlDocument = new HtmlDocument();
? ? htmlDocument.LoadHtml(html);

? ? var ipNodes = htmlDocument.DocumentNode.SelectNodes("//tbody/tr/td[1]");
? ? var portNodes = htmlDocument.DocumentNode.SelectNodes("//tbody/tr/td[2]");

? ? List<Task<bool>> tasks = new List<Task<bool>>();

? ? foreach (var ipNode in ipNodes)
? ? {
? ? ? ? var ip = ipNode.InnerText;
? ? ? ? var port = portNodes[ipNodes.IndexOf(ipNode)].InnerText;
? ? ? ? tasks.Add(IsProxyIpValid(httpClient, ip, port));
? ? }

? ? await Task.WhenAll(tasks);

? ? foreach (var task in tasks)
? ? {
? ? ? ? if (task.Result)
? ? ? ? {
? ? ? ? ? ? Console.WriteLine("该代理IP可用");
? ? ? ? }
? ? ? ? else
? ? ? ? {
? ? ? ? ? ? Console.WriteLine("该代理IP不可用");
? ? ? ? }
? ? }
}

static async Task<bool> IsProxyIpValid(HttpClient httpClient, string ip, string port)
{
? ? try
? ? {
? ? ? ? var httpClientHandler = new HttpClientHandler()
? ? ? ? {
? ? ? ? ? ? UseProxy = true,
? ? ? ? ? ? Proxy = new WebProxy(ip, int.Parse(port))
? ? ? ? };

? ? ? ? var httpClient = new HttpClient(httpClientHandler);
? ? ? ? var response = await httpClient.GetAsync("https://www.example.com");

? ? ? ? return response.StatusCode == HttpStatusCode.OK;
? ? }
? ? catch
? ? {
? ? ? ? return false;
? ? }
}

以上代码使用多线程检测代理IP的可用性，通过向目标网站发起请求，判断响应的状态码是否为200来判断代理IP的有效性。

2. 频繁更换代理IP

有些网站可能对单个IP地址的请求频率进行限制，因此我们可以使用多个代理IP轮流使用，从而规避频率限制。以下代码演示了如何在爬虫程序中轮流使用代理IP：

static async Task Main(string[] args)
{
? ? var httpClient = new HttpClient();

? ? var proxyIps = new List<string>() { "127.0.0.1:8888", "127.0.0.1:8889", "127.0.0.1:8890" };
? ? var currentProxyIpIndex = 0;

? ? // 循环使用代理IP发送请求
? ? for (int i = 0; i < 10; i++)
? ? {
? ? ? ? var currentProxyIp = proxyIps[currentProxyIpIndex];

? ? ? ? var proxyIp = currentProxyIp.Split(':')[0];
? ? ? ? var proxyPort = currentProxyIp.Split(':')[1];

? ? ? ? var httpClientHandler = new HttpClientHandler()
? ? ? ? {
? ? ? ? ? ? UseProxy = true,
? ? ? ? ? ? Proxy = new WebProxy(proxyIp, int.Parse(proxyPort))
? ? ? ? };

? ? ? ? var httpClient = new HttpClient(httpClientHandler);
? ? ? ? var html = await httpClient.GetStringAsync("https://www.example.com");

? ? ? ? Console.WriteLine(html);

? ? ? ? currentProxyIpIndex = (currentProxyIpIndex + 1) % proxyIps.Count;
? ? }
}

以上代码使用循环和取模运算符实现了轮流使用代理IP的功能。每次发送请求时，选择下一个代理IP发送请求。这样可以保证每个请求都使用不同的代理IP，提高爬取的效率。

总结

本文介绍了使用C#实现代理IP爬取的方法，并解决了一些常见的问题。在实际的爬虫开发中，代理IP是一个非常有用的工具，可以帮助我们规避反爬虫策略，提高爬取效率。然而，需要注意的是，使用代理IP爬取也可能面临一些挑战，比如代理IP的可用性和频繁更换代理IP等问题，需要我们灵活应对。希望本文对大家理解代理IP爬取有所帮助。

文章来源:https://blog.csdn.net/wq10_12/article/details/135128724
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！