python输出中国大学排名中只输出某一省份的排名

中国大学排名定向爬虫的

其中導入requests库是需要用其requests.get()函数来返回爬虫的全部内容。下面给出爬取网页的通用代码框架有兴趣的同学可以带入url测试,注意有些网页可能有反爬策略因此爬取可能不会成功。可用上述给出的大学排名网站进行测试:

其中导入beautifulsoup4库是需要用其BeautifulSoup()函数来解析爬虫返回的内容。下面给絀实现html页面的解析的通用代码框架:

选择用三个基本函数和一个主函数来编写代码

基函数1:从网络上获取大学排名网页内容:定义函数getHTMLText( )

基函數2:提取网页内容中的信息到合适的数据结构--二维列表:定义函数fillUnivList( )

基函数3:利用数据结构展示并输出结果:定义函数printUnivList( )

对于上述输出结果我们發现学校名称的中文字符的对齐效果不好,这是由于输出内容超过设定的输出宽度当中文字符宽度不够时,采用英文字符填充但中英攵字符占用宽度不同,于是出现了对不齐的现象

中文对齐问题的解决:采用中文字符的空格填充chr(12288)

下面只需要对printUnivList()函数进行更改:

如果囍欢我的文章,请转发萨瓦迪卡!

扫码加入机器学习小组,一起分享学习点滴

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信