在爬取到网页的时候发现点击“加载更多”会出现新的内容,但是网页却没有发生变化于是打开F12查看Network发现,会每次点击都会多出来一行如下:
随便点开一个就可以看到我们真正访问的URL地址:
从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url,这里我们直接访问该url(或者在preview2里面可以看到返回的数據)可以看到返回的数据就是新闻数据也就是我们要爬的数据。接下来就是进行url格式分析一般都会有规律可循。具体代码如下:
我这裏使用的是通过切片提取出所需要的ID并合并成每篇新闻正确的url地址这种方法比较简单,也比较繁琐主要是因为我确实不太熟悉正则表達式,不知道该如何进行匹配有大佬希望可以提出指正意见!