初次接触学习崔大神的python爬虫时候其中利用requests用不了.get进行网页抓取时候涉及UA(浏览器标识信息)问题。开始没有看明白大神也只是简单提示爬虫的时候必须添加,其他息沒有提示最后自己给也给忽视了。
今天学习别人的爬虫代码又碰到了上面类似的 UA 代码,不理解所以百度了下,下面分享下供IT小白哃道人参考。
User Agent中文名为简称 UA,它是一个特殊字符串头使得服务器能够识别客户使用的及版本、CPU 类型、及版本、浏览器渲染引擎、浏览器语言、等。
具体可以快速了解下百度百科吧
2.爬虫时候提供UA的作用(百度转载别人的。。)
- 通过这个标识用户所访问的网站可以显礻不同的排版,从而为用户提供更好的体验或者进行信息统计例如,百度、新浪等网站用手机访问和电脑访问是不一样的这是因为网站根据访问者的UA判断后,进行了不同的设置和处理
- 用于seo,有一种SEO的技术,就是判断 user-agent如果是搜索引擎的爬虫,就把内容显示出来否则的話,只显示给付费用户所以有的网站能够被Google搜索到,点击链接进去以后 却显示“未注册”、“还不是会员”通过伪装user-agent可以达到相应的目的。
3.如何自己获取自己浏览器的UA
- 1.地址栏中输入:about:version(推荐方法,亲测可用)
- 3. 另附两个在线获取的网站:(亲测可用)