【一起探讨微信公众号:qdgithub】
用php寫了一个爬虫在视频网站上进行视频下载地址的抓取,半个多小时大约抓取了3万多条ftp地址数据,效果还是可以的这里总结一下抓取过程中遇到的问题
1:通过访问浏览器来执行php脚本这种访问方式其实并不适合用来爬网页,因为要受到php的连接时间内存等的限制,当然了这里昰可以修改php.ini的配置文件但是还是不推荐使用,
php做长周期的任务的时候推荐使用php-cli(命令行)的方式进行这样效率相比web访问的效率要高得多的哆
2:在爬取页面的时候,一开始使用的是file_get_contents()的方式结果执行一段时间以后php就会报错(failed to open stream: No error ),后来查了一下,有人说curl()函数不会出现上述问题,就采用了curl的方式去采集数据没有问题
3:在进行采集之前,最好修改一下php.ini中的参数 user_agent(具体请百度)
//获取url的正则表达式 //获取ftp地址的正则表达式 //利用正则进行解析页面内容 //如果新查到的url已经在待查询或者已经查询的数组中存在,就不添加 //如果ftp地址已经存在,就不进行存储