楼主: cyu107
2069 1

[网帖精选] Python如何解决中文网页乱码 [推广有奖]

  • 4关注
  • 4粉丝

副教授

13%

还不是VIP/贵宾

-

威望
0
论坛币
24652 个
通用积分
11.6801
学术水平
52 点
热心指数
55 点
信用等级
46 点
经验
11550 点
帖子
243
精华
1
在线时间
624 小时
注册时间
2012-11-4
最后登录
2024-7-7

楼主
cyu107 发表于 2014-5-29 08:48:36 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

Python如何解决中文网页乱码


我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法。


首页我们需要安装chardet模块,这个可以通过easy_install或者pip来安装。


安装完以后我们在控制台上导入模块,如果正常就可以。


比如我们遇到的一些ISO-8859-2也是可以通过下面的方法解决的。


直接上代码吧:


import urllib2

import sys

import chardet


  req =urllib2.Request("http://www.163.com/")##这里可以换成http://www.baidu.com,http://www.sohu.com

  content = urllib2.urlopen(req).read()

  typeEncode = sys.getfilesystemencoding()##系统默认编码

  infoencode =chardet.detect(content).get('encoding','utf-8')##通过第3方模块来自动提取网页的编码

  html =content.decode(infoencode,'ignore').encode(typeEncode)##先转换成unicode编码,然后转换系统编码输出

   print html


    通过上面的代码,相信能够解决你采集乱码的问题。




Python 现场班  请点击https://bbs.pinggu.org/thread-3063306-1-1.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 中文网页 中文网 Content unicode python基础教程 python培训班 python是什么 Python下载

沙发
tanxinwei 发表于 2014-5-29 08:51:57
点赞

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 20:18