楼主: longgb246
816 0

[程序分享] 【python模块】一、chardet编码检测 [推广有奖]

  • 3关注
  • 1粉丝

讲师

62%

还不是VIP/贵宾

-

威望
0
论坛币
2491 个
通用积分
8.4272
学术水平
10 点
热心指数
16 点
信用等级
8 点
经验
1903 点
帖子
311
精华
0
在线时间
613 小时
注册时间
2013-4-26
最后登录
2023-3-18

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一、基本用法使用detect函数

输入字符串,输出检测的编码和置信度。

  1. import urllib
  2. rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
  3. import chardetchardet.detect(rawdata)
复制代码

二、高级用法

处理大量文本,增量式的检测。

  1. import urllib
复制代码

使用UniversalDetector()检测器,.feed()添加检测文本,增量检测的时候,如果达到最小阈值,则.done的值为True。
使用.close()关闭,.result为结果。

  1. import glob
复制代码

.reset()为UniversalDetector()检测器的重用。



论坛输代码,心累。输完了,代码不见了。

原文:http://www.jianshu.com/p/38b4a283414b


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python arde Hard universal Detector python import 置信度 字符串 检测

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-23 17:05