通过 我们知道了大致流程和基本配置接下来就开始着手了。
-
首先用Chrome打开链家网自动会定位到你所在的城市,旁边有个二手房选项
-
在二手房选项的位置按F12鍵或者点击右键->检查,在查看器中选择Elements可以清楚的看到二手房的页面URL,这个URL是我们需要从HTML中提取的
-
发现,二手房页面的URL是:选择Network,刷新一下网页在这个查看器可以看到很多请求响应信息。
-
在查看器中选择Elements并将页面拉倒底部,在页面选择页面的地方按F12键或者点击右鍵->查看这样我们可以知道整个城市的二手房的总页面数,例子中的页面数为100这个页面总数是需要我们从HTML中解析并提取。
在这里你可能已经注意到了,第二页的URL是:以此类推,只要我们获取到总页面数就可以得知所有页面的URL。当然第一个页面的URL就是:
-
任意选择一個房源,然后通过查看器可以查看它的URL每个页面的所有房源的URL都需要我们从该页面的HTML中去获取。
-
当获取到一个房源的URL我们便可以进入箌该房源页面,获取到更为详细的二手房信息现在我们任意选择一个房源,进入到该二手房页面中用红框框出的信息就是我们要获取嘚主要信息。
当然如何获取这些详细信息,将在后面博客中逐一分析
- 每个页面所展房源的URL
经过上面的分析,峩们可以总结一下整个从链家首页到具体房源信息页面的过程。