黄大仙玄机精选资料,黄大仙精选资料三天肖三码,黄大仙手机站,246好彩天天免费资枓大全

安居客--上海租房信息获取

  • 时间:2020-10-13 19:55  来源:未知   作者:admin   点击:

  爬取过程:使用scrapy可以有效的多线程爬取。我以前写爬虫的时候都是用requests和Beautiful Soup去写的,对于这种信息比较多的网站,效率上不太高。使用scrapy和xpath可以规避这个问题,让爬虫的开发者只需要关注提取的信息、分析以及应对网站的反爬虫机制。源码:PyCN/dianping_data

  学习记录:1)xpath的书写。安利个工具,Xpath checker(Chrome 插件)--可以快速地检查xpath是否正确,然后对xpath进行调整。很好用,强烈推荐。

  2)网站反爬的应对。一般来说,爬虫程序如果是爬取比较大点的网站,1⃣️肯定要使用随机ua和代理的。安居客网站对同一时间请求多的ip会进行封ip的处理。一开始我是用随机ua和动态的使用爬虫DOWNLOAD_DELAY参数,希望能减少请求次数,防止ip被封。但是实际爬取的时候并不好用,程序在爬取前几页的时候就会停止工作,然后安居客的首页也是无法打开。2⃣️还有一种应对是使用代理的ip,这样可以增量式的得到所有需要的数据。我测过几个免费的代理ip都是不好用的,需要写爬虫去抓可用的代理ip,实际上增加了一点工作量。3⃣️我这边采用的是google cache的方法。我在网上查找一些反爬的策略时,很多的博客和论坛提到google cache,但是都没有使用,原因是我们的网络很明显无法使用google。至于怎么搭代理使用谷歌,这个不是我要说的。我就是用这种办法,安居客的反爬策略没封我的ip,我也如愿的得到自己想要的数据。

  我的本质工作不是数据分析,也不是写爬虫的。我只是把它当作是一个业余爱好,晚上闲下来 的时候会自己琢磨这些。这几天在知乎上看到一个问题是关于爬虫者的节操的讨论,吓得我赶紧检查了自己的程序是不是合规的(-。-)。

  后记:写这么多只是想和大家分享一下,有兴趣的自己看下源码,当然也可以提问。我是业余的新手把,大家不喜轻喷啊。