您的位置:首页 > 代理IP资讯
发布时间:2020-04-23 15:40:59
爬虫代理ip如何应对反爬机制

  很多用户咨询飞猪IP的代理IP的时候,会问到代理IP真的能够用来冲破反爬虫的限制吗?如果是针对IP访问次数的反爬,那么用代理IP就可以了,但是如果遇到一些比较棘手的反爬,那么除了设置代理IP之外,我们还要做一些额外的准备。



  比如如果遇到网站反爬设置比较严格的时候,就连正常时候的访问有时候都会给你弹出来验证,验证你是不是蜘蛛,而且requests发的请求携带了请求头信息,cookie信息,代理ip,也能识别是爬虫。那么这个网站应该是有个ssl证书的机制,即使你关闭了也能检测到。那么我们可以怎么突破限制呢?


  这里飞猪IP有个解决思路:你跳出来是验证我就selenium做验证拿数据,你要是requests能请求到我就requests。


  但是selenium也得使用代理ip,要不还不是得把你ip给你封了。从网上找了些,但是代理拿下来发现不能用,我在本地设置好的代理ip可以用,加到option参数中就不行,下面看代码:


  from selenium import webdriver


  from selenium.webdriver import ChromeOptions


  option=ChromeOptions()


  ip=‘ip:port’


  option.add_argument((‘–proxy-server=’+ip))#有的博客写的是’–proxy-server=http://’,就目前我的电脑来看的话需要把http://去掉就可以用,他会自己加的


  driver=webdriver.Chrome(options=option)


  driver.get(url=’https://www.baidu.com/s?wd=ip’)


  如果大家有遇到反爬机制非常严格的网站,也出现了上面飞猪IP列举到的问题,那么大家可以尝试一下这个解决方法,看看能够解决问题,继续爬虫。


上一篇 下一篇