爬虫——爬虫中使用正则表达式
這样我们把url规律找到了,要想爬取所有的段子只需要修改一个参数即可。下面我们就开始一步一步将所有的段子爬取下来。
第一步:获取网页数据(网页上全部内容)
# 下载url对应的全部内容 # 让用户输入需爬取页面的起始页码 # 让用户输入需爬取页面的终止页码
最后我们執行上面的代码,完成后查看当前路径下的duanzi.txt文件里面已经有我们要的内涵段子。
以上便是一个非常精简的小爬虫程序使用起来很方便,如果想要爬取其他网站的信息只需要修改其中某些参数和一些细节就行了。