正确认识代理IP,合理使用代理IP(什么是合理使用)

很多人在网上看到过这样的文章:代理IP能突破访问限制,提高访问速度,隐藏真实IP,等等一大堆的优点,颇有点无所不能的感觉。等到自己使用代理IP时,却发现这不行,那不行,感觉自己使用的是假代理IP,这是怎么回事呢?

正确认识代理IP,合理使用代理IP(什么是合理使用)

一、代理IP也怕反爬

当您使用本机IP访问某网站时,本机IP受到了访问限制。您想到了使用代理IP来解决,但使用代理IP不一会,同样受到了访问限制。这是为什么呢,可能原因有哪些呢?

1、没有伪装User-Agent,在目标网站的眼中,你就是一个自动程序访问,并非真实用户访问,哪怕你使用了质量再高的代理IP,依然被识别,同样受到限制。

2、Referer防盗链。有些图片或视频网站经常会有这样的防盗链机制,如果你是直接访问某个URL,不管使用质量多高的代理IP,怎么访问都会失败,header里需要带上Referer(上一个URL)才能成功。

3、访问频率过快。网站管理员为了减轻服务器的压力,通常会设置访问频率的阈值,比如一分钟可以访问多少次,超过这个阈值就会限制IP访问,使用代理IP也有遵循这个规则,否则也会受到限制。

4、其他原因,比如访问网页间隔有规律,不管访问什么url,都是1秒时间,这样很容易被识别,受到限制,还有cookie,验证码等等方面因素。

二、代理IP以量取胜

如果你的本机IP在10秒内访问某网站100次受到了限制,那么使用代理IP访问了100次,同样会受到限制。解决方案可以是这样:使用5个代理IP,在10秒内每个代理IP访问该网站20次,采取这样的策略,代理IP就不会受到限制了。

代理IP的优点是量多,可以购买成千上万个代理IP来完成任务,而本机IP往往只有1个,受到限制后就没办法访问了,代理IP则不怕,一个代理IP受到限制了,可以切换另一个代理IP来继续工作,当然,最有效率的方法是不触发反爬策略,不受限制,稳定持续的工作。

还在裸爬?教你建不花钱IP代理池,突破IP提取极限

当你经常爬取对方的网站,对方看你,呦这家伙频繁访问也太快了吧,肯定是个爬爬,得把他的IP封了,看他还怎么爬!因此,这次教你怎么伪装自己的 IP 地址别让对方轻易的就把你给封掉。那怎么伪装呢?

正确认识代理IP,合理使用代理IP(什么是合理使用)

无私分享全套Python爬虫干货,如果你也想学习Python,可私信小编: 资料分享 获取。

正确认识代理IP,合理使用代理IP(什么是合理使用)

其实对于Python来说,使用代理代理IP访问是很简单的。就拿我们经常使用的requests库来说,使用代理IP如下:

正确认识代理IP,合理使用代理IP(什么是合理使用)

正确认识代理IP,合理使用代理IP(什么是合理使用)

正确认识代理IP,合理使用代理IP(什么是合理使用)

这样你就能使用代理IP去访问网站了,当然了,你会问我代理IP在哪?哪里来?在网上有很多的免费的代理IP,一搜就是一大堆。当然了你也知道,既然是免费的,肯定也有很多人去使用,而且也不稳定。我们的重点就是白嫖,不花钱

正确认识代理IP,合理使用代理IP(什么是合理使用)

第一步:安装包步骤如下:Shift+鼠标右键,选Windows PowerShell 窗口,然后在命令行输入命令。

正确认识代理IP,合理使用代理IP(什么是合理使用)

正确认识代理IP,合理使用代理IP(什么是合理使用)

正确认识代理IP,合理使用代理IP(什么是合理使用)

第二步,运行run.py步骤,直接在Windows PS窗口进行运行,输入命令python run.py

项目跑起来后,不要关闭该窗口,然后接下来你就可以访问你的ip代理池了。

比如随机获取一个代理 ip 地址

这样访问可以随机获取一个代理ip。

有了这样的条件,在代码中也不难实现:

这样我们就成功的在我们的代理池中获取代理 ip 了,那么下次谁还敢封你ip,你就拿出你的代理ip,继续爬,嘿嘿~

下面我给大家一个简单的实例来展现一下秀操作了.通过代理ip来爬取京东的商品图片:

为了帮助大家更轻松的学好Python,我给大家分享一套Python学习资料,希望对正在学习的你有所帮助!获取方式:关注 并 私信小编 “ 资料分享 ”,即可免费获取!

未经允许不得转载:搜热门主机 » 正确认识代理IP,合理使用代理IP(什么是合理使用)

赞 (0)

Warning: count(): Parameter must be an array or an object that implements Countable in /www/wwwroot/srmzj.com/wp-includes/class-wp-comment-query.php on line 405