当前位置: 首页 > 图灵资讯 > 行业资讯> python如何提取文本信息?

python如何提取文本信息?

来源:图灵python
时间: 2024-09-04 20:04:01

1、信息提取

首先用句子分段器将文档的原始文本分成句子,然后用记号赋值器进一步将每个句子分成单词。其次,对每个句子进行词性标记。以nltk中的默认工具为例,连接句子分段器、分词器和词性标记器。

defie_preprocess(document):
#nltk默认句子分段器
sentences=nltk.sent_tokenize(document)
#nltk默认分词器
sentences=[nltk.word_tokenize(sent)forsentinsentences]
#nltk默认词性标记
sentences=[nltk.pos_tag(sent)forsentinsentences]

2、词块划分

词块划分是实体识别的基本技术,对多个单词的顺序进行划分和标记。

如Noun Phrase Chunking(名词短语词块划分)

用正则表达式定义一种语法来划分名词短语词块

3、开发和评估词块划分器

分区器的性能可以通过evaluate()来评价。

以下是使用一元标记来建立单词块分割器的学习。然而,正确的单词块标记并不是确定每个单词的正确单词标记,而是根据每个单词的单词标记来确定。

#用一元标记器建立一个词块划分器。试着根据每个单词的词性标记来确定正确的词块标记。
classUnigramChunker(nltk.ChunkParserI):
#constructor
def__init__(self,train_sents):
#将训练数据转换为适合训练标记器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表
train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]
forsentintrain_sents]
#训练一元分块器
#self.tagger=nltk.UnigramTagger(train_data)
#训练二元分块器
self.tagger=nltk.BigramTagger(train_data)

#sentence是已标注的句子
defparse(self,sentence):
#提取词性标记
pos_tags=[posfor(word,pos)insentence]
#使用标记器标记IOB词块
tagged_pos_tags=self.tagger.tag(pos_tags)
#提取词块标记
chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]
#将词块标记与原句组合
conlltags=[(word,pos,chunktag)for((word,pos),chunktag)
inzip(sentence,chunktags)]
#转换成词块树
returnnltk.chunk.Conlltags2tree(conlltags)

以上是python提取文本信息的方法,希望对大家有所帮助,python学习网了解更多知识。