您的位置:首页 > 代理IP资讯
发布时间:2021-05-10 16:05:05
http/https等爬虫代理ip的基本实现原理是什么?

  爬虫工作人员在使用爬虫进行数据采集的过程中,经常会遇到这样的情况。刚开始爬虫运行正常,数据捕获也在有条不紊的进行。但是如果不能一目了然就可能出错,比如403禁。这时如果打开网页,会提示“你的IP访问频率太高”。出现这种现象的原因是被访问网站采用了反爬虫机制。例如,服务器将检测一个IP每单位时间的请求数量,如果超过此阈值,它将直接拒绝服务并返回一些错误消息。这种情况可以称为IP封。

  这种情况的解决方法很简单。既然他可以检测到一个IP的请求次数,那么用代理IP来伪装他的IP地址就是最好的办法,可以防止IP被屏蔽。

  然后了解代理IP的基本原理,看看代理IP是如何伪装的

  基本原理

  代理实际上是一个代理服务器,代理IP的作用是代表网络客户端获取网络信息。试试比喻,也就是说,它相当于一个网络信息的中转站。当我们正常请求一个网站时,请求被发送到网络服务器,网络服务器将响应发送回我们。如果中间设置了代理服务器,其实就是这台机器和被访问网站之间的桥梁。此时,该机器不直接向Web服务器发送请求,而是向代理服务器发送请求,代理服务器再将请求发送给Web服务器,然后代理服务器将Web服务器返回的响应转发给该机器。这样我们也可以正常访问web页面,但是Web服务器识别的真实IP已经不是我们自己的IP了,所以成功实现了IP伪装,这是代理的基本原理。

  2.代理的角色

  先说HTTP代理IP的作用

  突破自己的IP访问限制,访问一些平时无法访问的站点。

  访问一些单位或组织的内部资源:比如在教育网使用地址段的免费代理服务器,可以进行各种向教育网开放的FTP下载和上传,以及各种信息查询和共享服务。

  提高访问速度:通常代理服务器都是用大硬盘缓冲区设置的。当外部信息通过时,它也保存在缓冲区中。当其他用户再次访问相同的信息时,信息直接从缓冲区中取出并传输给用户,以提高访问速度。

  隐藏真实IP:互联网用户也可以通过这种方式隐藏自己的IP,以避免攻击。对于爬虫,我们使用代理隐藏他们的IP,防止他们的IP被屏蔽。3.爬行动物代理

  爬虫抓取数据时,由于爬虫速度过快,同一IP会被访问过于频繁。这时候网站会有认证或者直接屏蔽本地IP,给数据抓取带来极大的不便

  用代理隐藏真实IP,让服务器误以为是代理服务器在请求自己。这样,通过在爬行过程中不断改变爬虫代理IP,就不会被阻塞,可以达到很好的爬行效果。

  4.代理分类

  当代理被分类时,它们可以根据协议和匿名性来区分。

  (1)根据协议

  根据代理人的约定,代理人可以分为以下几类。

  FTP代理服务器:主要用于访问FTP服务器,一般具有上传、下载、缓存等功能。端口一般为212121等。

  HTTP代理服务器:主要用于访问网页,一般具有内容过滤和缓存功能。端口一般为8080803128等。

  SSL/TLS代理:主要用于访问加密网站,一般具有SSLTLS加密功能(最高支持128位加密强度),端口一般为443

  RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554

  Telnet代理:主要用于telnet远程控制(黑客入侵电脑时经常隐藏身份),端口一般为23

  POP3/SMTP代理:主要用于POP3/SMTP模式的邮件收发,一般有缓存功能,端口一般为110/25

  SOCKS代理:简单的传输数据包,不关心具体的协议和用法,所以速度快很多,一般有缓存功能,端口一般是1080SOCKS代理协议分为SOCKS4SOCKS5。前者只支持TCP,后者支持TCPUDP,还支持各种认证机制和服务器端域名解析。简单来说,sock5可以做SOCK4可以做的事情,但是SOCK4不能做sock5可以做的事情。

  (2)根据匿名程度

  根据代理的匿名性,代理可以分为以下几类。

  高度匿名代理:数据包会原封不动的转发,在服务器看来就像是一个普通的客户端真的在访问,记录的IP就是代理服务器的IP

  普通匿名代理:会对数据包做一些改动,服务器可能会发现是代理服务器,有一定机会追踪到客户端的真实IP。代理服务器通常添加HTTP头,包括HTTP_VIAHTTP_X_FORWARDED_FOR

  透明代理:不仅改变数据包,还告诉服务器客户端的真实IP。这个代理除了可以通过缓存技术提高浏览速度,通过内容过滤提高安全性之外,没有显著效果。最常见的例子就是内网的硬件防火墙。间谍代理是指由组织或个人创建的代理服务器,用于记录用户传输的数据,然后进行研究和监控。

  5.通用代理设置

  使用互联网上的免费代理:最好使用高级代理IP。另外,可用的代理不多,需要在使用之前对可用的代理进行过滤,或者进一步维护一个代理池。

  使用付费代理服务:网上代理很多,可以付费,质量比免费代理好很多。

  ADSL拨号:IP一次拨号,稳定性高,也是一种有效的解决方案。

http/https等爬虫代理ip的基本实现原理

上一篇 下一篇