在中文分词中,jiebe库之所以最常见,主要是因为它独特的支持分词模式,如精确模式、全模式和搜索引擎模式。它还对应三种方式,包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。以下是操作这些分词模式和使用方法的实例。让我们了解一下。
全模式:
importjieba seg_list=jieba.cut("欢迎来到南京长江大桥。",cut_all=True) print(type(seg_list),seg_list)
精确模式:
seg_list1=jieba.lcut("欢迎来到南京长江大桥。",cut_all=False) print(type(seg_list1),seg_list1)
搜索模式:
seg_list2=jieba.cut_for_search("欢迎来到南京长江大桥。") print(type(seg_list2),seg_list2) print("全模式:"+"/".join(seg_list)) print("精确模式:"+"/".join(seg_list1) print("搜索引擎模式:"+"/".join(seg_list2)
输出结果:
<class'list'>['南京市','长江大桥','欢迎','你','。'] <class'generator'><generatorobjectTokenizer.cut_for_searchat0000002ED4C4> 全模式:南京/南京/京市/市长/长江/长江大桥/大桥/欢迎/您/。 精准模式:南京/长江大桥/欢迎/你/。 搜索引擎模式:南京/京/南京/长江/大桥/欢迎/你/。
一组实例给大家详细讲解。 如果你感兴趣,可以试着学习jieba库分词模式的使用方法~