发布时间:2020-04-23 15:40:59
很多用户咨询飞猪IP的代理IP的时候,会问到代理IP真的能够用来冲破反爬虫的限制吗?如果是针对IP访问次数的反爬,那么用代理IP就可以了,但是如果遇到一些比较棘手的反爬,那么除了设置代理IP之外,我们还要做一些额外的准备。
比如如果遇到网站反爬设置比较严格的时候,就连正常时候的访问有时候都会给你弹出来验证,验证你是不是蜘蛛,而且requests发的请求携带了请求头信息,cookie信息,代理ip,也能识别是爬虫。那么这个网站应该是有个ssl证书的机制,即使你关闭了也能检测到。那么我们可以怎么突破限制呢?
这里飞猪IP有个解决思路:你跳出来是验证我就selenium做验证拿数据,你要是requests能请求到我就requests。
但是selenium也得使用代理ip,要不还不是得把你ip给你封了。从网上找了些,但是代理拿下来发现不能用,我在本地设置好的代理ip可以用,加到option参数中就不行,下面看代码:
from selenium import webdriver
from selenium.webdriver import ChromeOptions
option=ChromeOptions()
ip=‘ip:port’
option.add_argument((‘–proxy-server=’+ip))#有的博客写的是’–proxy-server=http://’,就目前我的电脑来看的话需要把http://去掉就可以用,他会自己加的
driver=webdriver.Chrome(options=option)
driver.get(url=’https://www.baidu.com/s?wd=ip’)
如果大家有遇到反爬机制非常严格的网站,也出现了上面飞猪IP列举到的问题,那么大家可以尝试一下这个解决方法,看看能够解决问题,继续爬虫。
大客户
微信
置顶