千家信息网

怎么用Python对Word文件内容进行读取

发表于:2025-01-16 作者:千家信息网编辑
千家信息网最后更新 2025年01月16日,今天小编给大家分享一下怎么用Python对Word文件内容进行读取的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获
千家信息网最后更新 2025年01月16日怎么用Python对Word文件内容进行读取

今天小编给大家分享一下怎么用Python对Word文件内容进行读取的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

    利用 python 批量读取文件

    word利器之python-docx

    python-docx 是用于创建可修改 微软 Word 的一个 python 库,提供全套的 Word 操作,是最常用的 Word 工具。

    使用前,先了解几个概念:

    • Document:是一个 Word 文档 对象,不同于 VBA 中 Worksheet 的概念,Document 是独立的,打开不同的 Word 文档,就会有不同的 Document 对象,相互之间没有影响

    • Paragraph:是段落,一个 Word 文档由多个段落组成,当在文档中输入一个回车键,就会成为新的段落,输入 shift + 回车,不会分段

    • Run 表示一个节段,每个段落由多个 节段 组成,一个段落中具有相同样式的连续文本,组成一个节段,所以一个 段落 对象有个 Run 列表。

    例如下图的 word 文档示意图:

    word 文档结构划分如下:

    python-docx 安装

    安装:

    pip install python-docx 如果安装速度太慢的话,可以换一个国内的源地址(如下)

    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx

    导入:

    import docx
    from docx import …

    python-docx 之 Document

    导入包与模块:

    from docx import Document

    使用方法:

    Document(word文件地址)

    返回值:

    word文件对象

    python-docx 之段落内容读取

    实际上要想读取一个 word 文档,主要就是读取它的段落以及它的表格。无论是段落还是表格,它的内部都是字符串,我们的目的就是读取这些字符串的内容。

    先看一下段落内容的读取方式:

    来源:

    document_obj.paragraphs 通过 document 对象的 paragraphs 函数返回一个段落的列表;如果 word 文件存在多个段落,就会有多个段落对象。

    使用方法:

    通过循环获取每个段落对象,并调用 text

    演示案例脚本如下:

    # coding:utf-8import osfrom docx import Documentpath = os.path.join(os.getcwd(), 'test_file/文本.docx')print("\'文本.docx\' 的路径为:", path)     # 调试路径doc = Document(path)for p in doc.paragraphs:    print(p.text)

    运行结果如下:(PS:文本只是演示,本人非培训机构的!)

    python-docx 之表格内容读取

    接下来我们看一下如何读取 word 文件中的表格内容:

    来源:

    document_obj.tables 通过 document 对象的 paragraphs 函数返回一个表格的列表;里面是一个一个的表格的对象。

    使用方法:

    同样通过循环,获取行与列的内容

    返回值:

    每个表格字段(字符串)

    演示案例代码如下:

    # coding:utf-8import osfrom docx import Documentpath = os.path.join(os.getcwd(), 'test_file/文本.docx')print("\'文本.docx\' 的路径为:", path)     # 调试路径doc = Document(path)# for p in doc.paragraphs:#     print(p.text)for t in doc.tables:            # for 循环获取表格对象    for row in t.rows:          # 获取每一行        row_str = []        for cell in row.cells:    # 获取每一行单独的小表格,然后将其内容拼接起来;拼接完成之后再第二个for循环中打印出来            row_str.append(cell.text)        print(row_str)        # 也可以通过 "columns" 获取表格中的列的内容,可以自己尝试一下

    运行结果如下:

    以上就是"怎么用Python对Word文件内容进行读取"这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注行业资讯频道。

    段落 内容 对象 表格 文件 文档 文本 多个 知识 篇文章 路径 循环 不同 使用方法 字符 字符串 就是 方法 演示 一行 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 数据库应用技术测试题答案 黄岛区微信公众号软件开发系统 网络技术服务合同样板 有伴网络技术北京有限公司 信息管理和网络技术哪个专业好 计算机网络技术员的工作职责 外国网络安全预算 网络安全知识竞赛答题次数 搭载业务系统服务器管理权限 数据库管理系统是哪类软件 数据库恢复是什么到什么的过程 南京聊天软件开发难度 数据库的聚合库 白日门清空数据库 内蒙古专业软件开发服务价钱 kali入侵网站进入服务器 自然语言处理和网络安全的结合 儿童网络安全风险 信通建互联网科技有限公司怎么样 数据库技术中台 昆明互联网科技找哪家 服务器被攻击暂时关闭可以吗 网络安全抗疫 网络安全问题论文2000字 软件定义无线网络技术 南京聊天软件开发难度 晶晨A311d 软件开发包 服务器操作系统管理及运维 金凤区政务软件开发怎么收费 酒泉市网络安全宣传工作
    0