将一个Html文件解析成为对象:
将HTML解析成为对象:
2、/li: 找到ul下边的直接子元素li不包含后代元素。
4、xpath()返回的是一个列表:比如
获取one_li的文本内容:
# 上述写法的合写方式
获取所有li的攵本内容以及class属性的值:
获取div标签内部的所有文本:
将一个Html文件解析成为对象:
2、/li: 找到ul下边的直接子元素li不包含后代元素。
4、xpath()返回的是一个列表:比如
获取one_li的文本内容:
# 上述写法的合写方式
获取所有li的攵本内容以及class属性的值:
获取div标签内部的所有文本:
之前都只是使用urllib和urllib2这两个类库接下来要发掘更多好用的工具了,比如这个xpath对于分析HTML的网页结构实在是太方便。
大家可以参考一下这个网址学习一下xpath的使用方法好了丅面就说回我的代码实现
首先观察一下马蜂窝的游记HTMLsource
然后就可以写出获得图片地址和保存图片的函数
其他的基本上和以前的一样没什么好說的,但是我发现一个问题就是xpath不是万能可能我还没深入了解它的使用吧,但是我在获取游记的背景音乐地址却没能成功
print u"请输入一个马蜂窝的游记网址"
以后屏保就不要用系统默认的啦
python爬虫xpath爬虫框架Scrapy介绍(一)主要简單介绍了Scrapy框架的用法本篇文章【python爬虫xpath爬虫框架Scrapy之爬取下一页网页的方法】介绍的重点是怎么爬取动态网页中的下一页方法。让你爬完怎麼网站的内容
方法一:使用Spider爬取