word文件看起来复杂,结构化不方便。事实上,word文档中有几个内容:paragraph(段落)、table(表格)、character(字符)。我现在要分析的word文档基本都是段落和表格。本文主要讲述了从word中分析表格并结构表格信息的方法。
1、首先需要在python中安装它,以便使用python来解析word文件,并且可以使用包docx。
pipinstallpython-docx
2、word文件安装后即可读取。
importdocx fn=r'D:\长恨歌.docx'doc=docx.Document(fn)#根据段落读取所有数据 forparagraphindoc.paragraphs:print(paragraph.text)#根据表格读取所有数据 fortableindoc.tables:forrowintable.rows:forcellinrow.cells:print(cell.text) table_num=len(doc.tables)#获取文档的表格数量 print(table_num) table_0=doc.tables选择第一表[0]#选择第一表 table_rows=len(table_0.rows)#获取第一个表的行数 print(table_rows) tab=doc.tables[0].rows[0].cells[0]#获取第一张表第一行第一列数据 print(tab.text) par=doc.paragraphs[2]#读取第三段数据 print(par.text)
以上是python在word中读取表格内容的方法,希望对大家有所帮助。更多Python学习指导:python基础教程
本文教程操作环境:windows7系统Python 3.9.1,DELL G3电脑。