在这個过程中主要用到了urllib2
和BeautifulSoup
两个包以搜狐新闻为例,做了一个简单的爬取内容的爬虫爬取视频没有做任何的优化等问题,因此会出现假死等情况
在上述代码运行过程中,会遇到一些问题导致爬虫爬取视频运行中断,速度慢等问题下面列出来几种问题:
可以从网上寻找一些代理服务器,然后通过设置爬虫爬取视频的代理从而解决IP的问题代码如下:
关於状态问题,如果寻找不到网页则直接舍弃因为丢弃少量的网页不影响以后的工作。
关于速度慢的问题可以采用多进程的方式进行爬取。在分析完网址以后可以在Redis
中使用有序的集合作为一个队列,既解决了URL
重复的问题又解决了多进程的问题。(暂未实现)
昨天晚上尝试运行了一下爬取搜狐新闻网的部分网页,大概是50*5*15=3750
多个网页从而解析出来了2000
多条新闻,在网速为将近1Mbps
的情况下花费了1101s
嘚时间,大概是18分钟左右
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。