1、当我们得到一个bytes时,我们可以检测它的代码。用chardet检测代码只需要一行代码:
>>>chardet.detect(b'Hello,world!') {'encoding':'ascii','confidence':1.0,'language':''}
检测到的代码是ascii,注意到还有一个confidence字段,表示检测概率为1.0(即100%)。
2、检测GBK编码的中文
>>>data='离开原草,一岁枯荣'.encode('gbk') >>>chardet.detect(data) {'encoding':'GB2312','confidence':0.7407407407407407,'language':'Chinese'}
检测编码为GB2312。请注意,GBK是GB2312的超集。它们是相同的编码。检测正确的概率为74%。language字段指出的语言为'Chinese'。
以上是python 希望chardet检测编码的方法对大家有所帮助。更多Python学习指导:python基础教程