说明
1、TF-IDF被认为具有良好的分类能力,适合分类,如果单词或短语出现在文章中的概率较高,而很少出现在其他文章中。
2、对文件集或语料库中文件的重要性进行评估。
实例
deftfidf_demo(): """ 文本特征提取采用tfidf的方法 :return: """ #1.将中文文本分词 data=["今天很残酷,明天更残酷,后天很美好,但绝对大多数都是死在明天晚上,所以今天不要让每个人都放弃。", "我们看到的来自远星系的光是几百万年前发出的,所以当我们看到宇宙时,我们正在看它的过去。", "我们看到的来自远星系的光是几百万年前发出的,所以当我们看到宇宙时,我们正在看它的过去。", "假如只用一种方式去理解某件事,你就不会真正理解它。了解事物真正含义的秘密取决于如何将它们与我们所知道的事物联系起来。"] data_new=[] forsentindata: data_new.append(cut_word(sent)) #print(data_new) #2.实例化转换器类型 transfer=TfidfVectorizer(stop_words=["一种",'因为']) #3.调用fit_transform data_final=transfer.fit_transform(data_new) print("data_new:\n",data_final.toarray()) print("特征名称:\n",transfer.get_feature_names()) returnNone
以上就是Python中Tf-idf文本特征的提取,希望对大家有所帮助。更多Python学习指导:python基础教程
本文教程操作环境:windows7系统Python 3.9.1,DELL G3电脑。