Python如何解析网页源代码码里没有的,但在审查

如何通过Python爬取到在源代码中未显示代码的图片呢?_百度知道
如何通过Python爬取到在源代码中未显示代码的图片呢?
如何通过Python爬取到在源代码中未显示代码的图片呢?请教一个问题:用Python爬取网页图片时,通过审查元素分析提取出图片代码,但使用正则的方法爬取报错,原因发现是源代码中并没有这个图片代码存在。所以问一下为什么源代码中没有我所需要的代码,同时我又...
我有更好的答案
你找到的并不是真实URL,两种方法可解决按F12查找js文件中的URL利用selenium+phantomjs直接抓取
通过F12如何查找js文件,什么是js文件?小白一枚,请赐教,谢谢了!
可能是js,结合phantomjs试试
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。python爬虫爬取页面,爬到空白的一段,但是网页上源代码不是空白? - 知乎有问题,上知乎。知乎作为中文互联网最大的知识分享平台,以「知识连接一切」为愿景,致力于构建一个人人都可以便捷接入的知识分享网络,让人们便捷地与世界分享知识、经验和见解,发现更大的世界。7被浏览<strong class="NumberBoard-itemValue" title="分享邀请回答赞同 添加评论分享收藏感谢收起求助:关于python中urllib.urlopen读取网页源代码的问题_百度知道
求助:关于python中urllib.urlopen读取网页源代码的问题
有个很奇怪的问题,我要读取一个网站中符合某种结构的所有链接,因此需要先用urllib.urlopen读取网站的源码,然后用正则去匹配其中符合某种结构的所有链接,奇怪的问题是,用urllib.urlopen读取源码时有时可以正常读取其中的源码,有时又不行了,这是网络信号...
我有更好的答案
一般都用requests,很少用urllib
采纳率:78%
来自团队:
def&getUrlRespHtml(url):&&&&heads&=&{&#39;Accept&#39;:&#39;text/html,application/xhtml+xml,application/q=0.9,*/*;q=0.8&#39;,&&&&&&&&&&&&&&#39;Accept-Charset&#39;:&#39;GB2312,utf-8;q=0.7,*;q=0.7&#39;,&&&&&&&&&&&&&&#39;Accept-Language&#39;:&#39;zh-cn,q=0.5&#39;,&&&&&&&&&&&&&&#39;Cache-Control&#39;:&#39;max-age=0&#39;,&&&&&&&&&&&&&&#39;Connection&#39;:&#39;keep-alive&#39;,&&&&&&&&&&&&&&#39;Host&#39;:&#39;John&#39;,&&&&&&&&&&&&&&#39;Keep-Alive&#39;:&#39;115&#39;,&&&&&&&&&&&&&&#39;Referer&#39;:url,&&&&&&&&&&&&&&#39;User-Agent&#39;:&#39;Mozilla/5.0&(X11;&U;&Linux&x86_64;&zh-CN;&rv:1.9.2.14)&Gecko/&Ubuntu/10.10&(maverick)&Firefox/3.6.14&#39;}&&&&opener&=&urllib2.build_opener(urllib2.HTTPCookieProcessor())&&&&urllib2.install_opener(opener)&&&&&req&=&urllib2.Request(url)&&&&opener.addheaders&=&heads.items()&&&&respHtml&=&opener.open(req).read()&&&&return&respHtml.decode(&#39;gbk&#39;).encode(&#39;utf-8&#39;)给你一个返回页面数据的函数试试,这个主要是模拟了火狐浏览器去抓取数据,因为有些网站不希望机器人抓取他的数据,这是可能会出现没有返回值的情况。这个函数加了个头,来模拟浏览器浏览网页的行为。
非常感谢您!我按照您的代码运行了以下,报异常:HTTPError: HTTP Error 503: Service Unavailable请问这是什么问题呢?麻烦您了
本回答被提问者和网友采纳
除了加上header 没事多try一下 有时候就会超时
request = urllib2.Request(url,headers = header)加上
header = {&#39;Accept-Charset&#39;:&#39;GBK,utf-8;q=0.7,*;q=0.3&#39;,&#39;User-Agent&#39; : &#39;Mozilla/5.0 (W U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.151 Safari/534.16&#39;}这个试试
麻烦写的完整些吧?看的不是很懂
其他1条回答
为您推荐:
其他类似问题
python的相关知识
&#xe675;换一换
回答问题,赢新手礼包&#xe6b9;
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。14:49 提问
python 实现爬取网页的审查元素,求大神路过
网页源代码只有 JavaScript,没有我想要的数据。只能通过审查元素看到,怎样才能抓取审查元素的内容 暂时用的是selenium,但只能看源代码。求大神路过
按赞数排序
selenium拿到数据后,用lxml来解析节点,获取你对应的数据
beautifulsoup试试吧。。
beautifulsoup试试看?
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐本文出自汗血宝马,转载时请注明出处及相应链接。
本文永久链接: http://www.caotama.com/62287.html
&#404;回顶部}

我要回帖

更多关于 网页源码 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信