Java读取PDF中的表格的方法是什么
发表于:2025-02-07 作者:千家信息网编辑
千家信息网最后更新 2025年02月07日,本篇内容主要讲解"Java读取PDF中的表格的方法是什么",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Java读取PDF中的表格的方法是什么"吧!目录一、
千家信息网最后更新 2025年02月07日Java读取PDF中的表格的方法是什么
本篇内容主要讲解"Java读取PDF中的表格的方法是什么",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Java读取PDF中的表格的方法是什么"吧!
目录
一、概述
二、环境配置
1. 手动导入
2. Maven仓库下载导入
三、读取PDF中的表格
一、概述
本文以Java示例展示读取PDF中的表格的方法。这里导入Spire.PDF for Javah中的jar包,并使用其提供的相关及方法来实现获取表格中的文本内容。下表中整理了本次代码使用到的主要类、方法及解释,供参考:
类型 | 描述 |
PdfDocument Class | Represents a pdf document model. |
PdfDocument. loadFromFile (string filename) Method | Loads a PDF document. |
PdfTableExtractor Class | Represents the PDF table extractor. |
PdfTable Class | Defines a PDF table. |
PdfTableExtractor. extractTable (int pageIndex) Method | Extracts table from page. |
PdfTable.getText(int rowIndex,int columnIndex) Method | Gets Text in cell. |
FileWriter. write() Method | Saves extracted text in table to a .txt file. |
二、环境配置
IntelliJ IDEA 2018(JDK 1.8.0)
PDF 测试文档
PDF Jar包:Spire.PDF for Java Version: 4.10.2
Jar包的两种导入方法:
1. 手动导入
将jar包下载到本地,解压。然后执行如下步骤来手动导入:
2. Maven仓库下载导入
如果使用maven,需在pom.xml中配置maven路径,指定依赖,如下:
com.e-iceblue https://repo.e-iceblue.cn/repository/maven-public/ e-iceblue spire.pdf 4.10.2
三、读取PDF中的表格
import com.spire.pdf.*;import com.spire.pdf.utilities.PdfTable;import com.spire.pdf.utilities.PdfTableExtractor;import java.io.FileWriter;import java.io.IOException;public class ExtractTable { public static void main(String[] args)throws IOException { //加载PDF文档 PdfDocument pdf = new PdfDocument(); pdf.loadFromFile("test.pdf"); //创建StringBuilder类的实例 StringBuilder builder = new StringBuilder(); //抽取表格 PdfTableExtractor extractor = new PdfTableExtractor(pdf); PdfTable[] tableLists ; for (int page = 0; page < pdf.getPages().getCount(); page++) { tableLists = extractor.extractTable(page); if (tableLists != null && tableLists.length > 0) { for (PdfTable table : tableLists) { int row = table.getRowCount(); int column = table.getColumnCount(); for (int i = 0; i < row; i++) { for (int j = 0; j < column; j++) { String text = table.getText(i, j); builder.append(text+" "); } builder.append("\r\n"); } } } } //将提取的表格内容写入txt文档 FileWriter fileWriter = new FileWriter("ExtractedTable.txt"); fileWriter.write(builder.toString()); fileWriter.flush(); fileWriter.close(); }}
表格内容读取结果:
注意事项:
1. 注意使用的PDF Jar包版本为4.10.2,低于此版本的jar包不支持读取表格;
2. 代码中的文件路径为 F:\IDEAProject\Table_PDF\test.pdf 和 F:\IDEAProject\Table_PDF\ExtractedTable.txt , 文件路径可自定义为其他路径。
到此,相信大家对"Java读取PDF中的表格的方法是什么"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
表格
方法
内容
路径
手动
文档
配置
仓库
代码
文件
版本
环境
学习
实用
更深
事项
兴趣
实例
实用性
实际
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
联想服务器售后成都
云锁服务器安全防护
郑州net软件开发
做网页必须用买服务器吗
ipv6数据库连接
网络安全法的正式施行日期
云平台服务器客户端的区别
常见的网络安全现象有哪些
深圳苹果软件开发公司
服务器 ad
程序检测服务器有效吗
数据库技术的利弊
物流管理系统数据库下载
山西文档软件开发哪家好
黑龙江运营软件开发计划
360网络安全优势
大连软件开发软件公司有哪些
高校网络安全吗
云服务器能用数据库吗
东莞软件开发哪家公司靠谱
录像机出现影像数据库文件
牛散数据库
虹口区本地网络技术厂家价格
access数据库办公软件
第五届雪野湖医疗网络安全
国家网络安全研究报告
湖北网络技术基础
东软生成器连接不上数据库
功能权限 数据库设计
e31231支持服务器内存么