python为什么叫爬虫爬虫,第一个数据是乱码,但后面的数据又是正确的,大佬们解答一下呀,谢谢。(附图)

1、必须首先查看网页源代码里的head頭部说明标签(以飞卢小说网起点小说网为例)


很明显,起点小说的utf-8,gbk和iso都是可以走寻常道路的都可以参照以下代码:

而类如飞卢小说嘚gb2312等少见的字符编码现如今已经逐渐被废除了,不能直接采用这种方法转换为utf-8只能以gbk为过渡,进而转化为utf-8

2、可能遇到某种防爬虫机制影響(略)

}
这种乱码现象基本上都是编码造荿的我们要转到我们想要的编码,先po一个知识点嵩天老师在说到过的:/'
}

我要回帖

更多关于 python为什么叫爬虫 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信