爬虫代理ip如何应对反爬机制-飞猪IP

发布时间：2020-04-23 15:40:59

爬虫代理ip如何应对反爬机制

　　很多用户咨询飞猪IP的代理IP的时候，会问到代理IP真的能够用来冲破反爬虫的限制吗?如果是针对IP访问次数的反爬，那么用代理IP就可以了，但是如果遇到一些比较棘手的反爬，那么除了设置代理IP之外，我们还要做一些额外的准备。

　　比如如果遇到网站反爬设置比较严格的时候，就连正常时候的访问有时候都会给你弹出来验证，验证你是不是蜘蛛，而且requests发的请求携带了请求头信息，cookie信息，代理ip，也能识别是爬虫。那么这个网站应该是有个ssl证书的机制，即使你关闭了也能检测到。那么我们可以怎么突破限制呢?

　　这里飞猪IP有个解决思路：你跳出来是验证我就selenium做验证拿数据，你要是requests能请求到我就requests。

　　但是selenium也得使用代理ip，要不还不是得把你ip给你封了。从网上找了些，但是代理拿下来发现不能用，我在本地设置好的代理ip可以用，加到option参数中就不行，下面看代码：

　　from selenium import webdriver

　　from selenium.webdriver import ChromeOptions

　　option=ChromeOptions()

　　ip=‘ip:port’

　　option.add_argument((‘–proxy-server=’+ip))#有的博客写的是’–proxy-server=http://’，就目前我的电脑来看的话需要把http://去掉就可以用，他会自己加的

　　driver=webdriver.Chrome(options=option)

　　driver.get(url=’https://www.baidu.com/s?wd=ip’)

　　如果大家有遇到反爬机制非常严格的网站，也出现了上面飞猪IP列举到的问题，那么大家可以尝试一下这个解决方法，看看能够解决问题，继续爬虫。