您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
如何用Python批量提取word里指定内容并输出为Excel?
表格,内容,文本如何用Python批量提取word里指定内容并输出为Excel?
发布时间:2016-12-08加入收藏来源:互联网点击:
如何用Python批量提取word里指定内容并输出为Excel?
回答于 2019-09-11 08:43:50
回答于 2019-09-11 08:43:50
我们在做一些数据统计或分析的时候,有时会接触到Execl 格式或者Word 格式的文件。Execl格式的数据提取和解析,我们在之前的文章分享过一些非常好用的Python第三方库,本文中主要介绍如何使用Python python-docx 模块提取Word 文件中的文本信息和表格数据。
python-docx 安装
我们在Windows 10 Python3 环境中使用pip进行安装。
演示文本
为了方便理解,我们以python-docx.docx文件为例,演示如何使用Python提取其中的文本信息和表格数据,并开发自定义函数以字典的形式提取内容,python-docx.docx文件内容如下:
在使用python-docx读取word文档中文本之前,我们先了解下python-docx模块的几个概念。
Document 对象,表示一个Word文档。Paragraph 对象,表示Word文档中的一个段落。Paragraph 对象的text属性,表示段落中的文本内容。提取docx文件中文本信息
使用python-docx提取docx文件中文本数据,Python实现代码如下:
如上,我们将python-docx.docx文件中的文本信息,按行提取出来,存储到字典中,字典的key为行号,value为文本信息,执行上述代码,输出结果如下:
提取docx文件中表格数据
使用python-docx 提取docx文件中表格数据,Python实现代码如下:
如上,我们将python-docx.docx文件中的表单信息,按行提取出来,存储到列表中,列表每个元素为一个表格的数据,数据结构为字典,执行上述代码输出结果如下:
提取包含指定关键字的文本
我们基于上述自定义封装函数extract_text、extract_form,结合re 模块即可以实现提取包含关键字的文本内容,代码实现如下:
如上,我们实现了提取docx文本中包含指定内容的文本信息,并输出该内容所在行,执行上述代码,输出结果为:
回答于 2019-09-11 08:43:50
这里以批量提取Word表格数据为例,简单介绍一下如何利用Python将指定的内容输出为Excel,感兴趣的朋友可以尝试一下:
01
安装依赖包
批量提取Word内容输出为Excel,牵扯到Word和Excel操作,因此需要专门第三方模块—python-docx和openpyxl,其中python-docx专门用于读写Word文档,openpyxl专门用于读写Excel表格,安装的话,直接在cmd窗口输入命令“pip install python-docx openpyxl”即可:
02
批量提取Word文档内容
依赖包安装完成后,就是批量提取Word内容,这里以批量提取Word文档内的表格数据为例,测试代码如下,非常简单,基本思路先加载Word文档,然后读取所有表格数据,最后再用一个list列表保存下来,当然,你也可以提取文本段落等其他内容,都是可以的,官方文档有详细说明:
03
输出Excel表格
Word数据批量提取完成后,就是将提取的数据写入到Excel表格中,测试代码如下,基本思路先新建一个Excel文件,然后依次循环提取到的表格数据写入到对应单元格,最后再保存即可,这里我在每个Word表格之间空了2行,方便数据查看,当然,你也可以使用其他模块操作Excel,像pandas、xlwt等都行,只要能实现相关功能就行:
至此,我们就完成了利用Python批量提取Word里指定内容并输出为Excel。总的来说,整个过程非常简单,先提取Word内容,然后再写入Excel即可,只要你有一定Python基础,熟悉一下上面的代码和示例,很快就能掌握的,网上也有相关教程和资料,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。
上一篇:快餐店的一位小女生用手擦完鼻涕给客人抓面条,大家如果发现这种现象当时会吃吗?
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |