首页常见问题正文

为什么用Selenium做爬虫?Selenium爬虫机制优势

更新时间:2023-10-30 来源:黑马程序员 浏览量:

Selenium是一个Web应用的自动化测试框架,可以创建回归测试来检验软件功能和用户需求,通过框架可以编写代码来启动浏览器进行自动化测试,换言之,用于做爬虫就可以使用代码启动浏览器,让真正的浏览器去打开网页,然后去网页中获取想要的信息!从而实现真正意义上无惧反爬虫手段。

例如在拉勾网上搜索传智播客,找到对应的ajax请求地址,使用postman来测试数据:
1698652035728_爬虫.png

前几次可能会获取到数据,但多几次则会出现操作频繁请稍后再试的问题,很多 API 也都进行了加密处理:

1698652115537_爬虫2.png

而通过Selenium可以操作浏览器,打开某个网址,接下来只需要学习其API,就能获取网页中需要的内容了!

反爬虫技术只是针对爬虫的,例如检查请求头是否像爬虫,检查IP地址的请求频率(如果过高则封杀)等手段

而Selenium打开的就是一个自动化测试的浏览器,和用户正常使用的浏览器并无差别,所以再厉害的反爬虫技术,也无法直接把它干掉,除非这个网站连普通用户都想放弃掉(12306曾经迫于无奈这样做过)


分享到:
在线咨询 我要报名
和我们在线交谈!