admin 技术分享 2022-06-28

Python 爬虫遇到中文乱码

使用Python网络爬虫过程中中文乱码的问题。

一、思路

其实解决问题的关键点就是在于一点，就是将乱码的部分进行处理，而处理的方案主要可以从两个方面进行出发。其一是针对整体网页进行提前编码，其二是针对局部具体中文乱码的部分进行编码处理。

其实关于中文乱码的表现形式有很多，但是常见的两种如下：

1、当出现网页编码为gbk，获取到的内容在控制台打印类似如下情况的时候：

ÃÀÅ® µçÄÔ×À ¼üÅÌ »ú·¿ ¿É°® Ð¡½ã½ã4k±ÚÖ½

2、当出现网页编码为gbk，获取到的内容在控制台打印类似如下情况的时候：

�װŮ�� ��Ů ˮ СϪ Ψ��

虽然看上去控制台输出正常，没有报错：

Process finished with exit code 0

但是输出的中文内容，却不是普通人能看得懂的。

这种情况下的话，就可以通过使用本文给出的三种方法进行解决，屡试不爽！

1）方法一：将requests.get().text改为requests.get().content

我们可以看到通过text()方法获取到的源码，之后进行打印输出的话，确实是会存在乱码的，如下图所示。

此时可以考虑将请求变为.content，得到的内容就是正常的了。

2）方法二：手动指定网页编码

# 手动设定响应数据的编码格式 response.encoding = response.apparent_encoding

接下来的第三种方法就是针对中文局部乱码部分使用通用编码方法进行处理。

3）方法三：*使用通用的编码方法*

img_name.encode('iso-8859-1').decode('gbk')

“`python
img_name.encode(‘iso-8859-1’).decode(‘gbk’)
“`

使用通用的编码方法，对中文出现乱码的地方进行编码设定即可。还是当前的这个例子，针对img_name进行编码设定，指定编码并进行解码，如下图所示。

如此一来，中文乱码的问题就迎刃而解了。

【果粉生活】- 最新苹果IOS信息，致力于为果粉提供最新的IOS趣事、技巧、评测、使用心得等内容和观点
果粉生活 » Python 爬虫遇到中文乱码

分享到：