使用 Python 将 PDF 转换为 CSV

Python 以其庞大的软件包库而闻名。借助这些库，我们将了解如何将 PDF 文件转换为 CSV 文件。CSV 文件只不过是一组数据，以行和列的形式构成框架。Python 库中提供了各种可将 PDF 转换为 CSV 的软件包，但我们将使用 **Tabula-py 模块**。tabula-py 的主要部分是用 Java 编写的，它首先读取 PDF 文档并将 Python DataFrame 转换为 JSON 对象。

为了使用 tabula-py，我们必须在系统中预先安装 Java。要将 PDF 文件转换为 CSV，我们将按照以下步骤操作：

首先，通过在命令行中键入 **pip install tabula-py** 来安装所需的软件包。
现在，使用 **read_pdf("文件位置", pages=数字)** 函数读取文件。这将返回 DataFrame。
使用 **tabula.convert_into(‘pdf-文件名’, ‘文件名称.csv’,output_format= "csv", pages= "all")** 将 DataFrame 转换为 Excel 文件。它通常将 pdf 文件导出到 excel 文件中。

示例

在这个示例中，我们使用了 **IPL 比赛日程文档** 并将其转换为 Excel 文件。

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

输出

运行上述代码将把 PDF 文件转换为 Excel (CSV) 文件。

Dev Prakash Sharma

更新于: 2021年4月21日

16K+ 浏览量

启动您的职业生涯

通过完成课程获得认证

开始学习

使用 Python 将 PDF 转换为 CSV

示例

输出

启动您的 职业生涯

启动您的职业生涯