如何将 Pandas DataFrame 保存为 gzip/zip 文件？

可以使用 Python 中的 **gzip 和 zipfile** 模块将 Pandas DataFrame 保存为 gzip/zip 格式。Pandas 是一个用于数据操作和分析的 Python 库。它提供了一个二维标记数据结构，其列可能具有不同的数据类型。为了减小 DataFrame 的大小，我们需要将其存储为 gzip/zip 格式。在本文中，我们将了解如何将 Pandas DataFrame 保存为 gzip/zip 文件。

算法

下面编写了一个将 Pandas DataFrame 保存为压缩的 gzip/zip 文件的通用算法。但是，此算法的确切实现可能因具体的用例和使用的文件格式而异。例如，如果使用 PyArrow 和 Parquet 格式，则该算法需要使用 PyArrow 库将 DataFrame 转换为 Parquet 表，然后再将其保存到压缩文件。

导入必要的库：Pandas、gzip/zip 库（例如，zipfile 用于 zip 压缩，gzip 用于 gzip 压缩）和 PyArrow（如果使用 Parquet 格式）。
加载或创建要保存为压缩文件的 Pandas DataFrame。
选择要使用的压缩方法（gzip 或 zip），并使用相应的库打开要写入的文件对象。例如，如果使用 gzip，则可以使用“gzip.open”创建文件对象。
使用适当的方法（例如 to_csv、to_pickle、to_parquet）将 DataFrame 保存到文件对象，并将“compression”参数设置为所选的压缩方法。
关闭文件对象。

方法 1：使用 to_csv() 方法

将 Pandas DataFrame 保存为 Gzip 文件

Gzip 是一种用于在 Python 中压缩文件的压缩格式。它用于 Linux 和 UNIX 操作系统。要将 Pandas DataFrame 保存为 gzip 文件，我们需要导入 gzip 模块并使用其 open() 方法以写入模式创建文件对象。然后，将文件对象传递给 DataFrame 对象的 **to_csv()** 方法。

语法

df.to_csv('data.csv.gz', index=False, compression='gzip')

在这里，to_csv() 方法将 Pandas DataFrame 保存为具有 gzip 压缩的压缩 CSV 文件。“index=False”参数指定索引列不应包含在输出文件中，“compression='gzip'”参数告诉该方法对输出文件应用 gzip 压缩。

示例

在下面的代码中，我们创建了一个包含三列（姓名、年龄和薪水）的 DataFrame，并将其保存为名为“data.gz”的 gzip 文件。我们使用了 **with** 语句来确保在将 DataFrame 写入文件对象后关闭该对象。“index=False”参数告诉 to_csv() 方法不要将行索引写入文件。

import pandas as pd
import gzip

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
      'Age': [25, 30, 35],
      'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# Save DataFrame as a gzip file
with gzip.open('data.gz', 'wb') as f:
   df.to_csv(f, index=False)

输出

DataFrame 将被保存为 gzip 文件，文件内容如下所示：

Name,Age,Salary
Alice,25,50000
Bob,30,60000
Charlie,35,70000

将 Pandas DataFrame 保存为 Zip 文件

Zip 是一种流行的压缩文件格式，主要用于 Windows 操作系统。Python 中的 zipfile 模块提供了一种简单的方法来将 Pandas DataFrame 保存为压缩的 zip 文件。

要将 Pandas DataFrame 保存为 zip 文件，我们需要导入 zipfile 模块并使用其 ZipFile() 方法以写入模式创建一个 ZipFile 对象。然后，我们可以使用 ZipFile 对象的 open() 方法在 zip 文件中创建一个文件对象。最后，我们可以将此文件对象传递给 DataFrame 对象的 to_csv() 方法。

示例

在下面的代码中，我们创建了一个包含三列（姓名、年龄和薪水）的 DataFrame，并将其保存为名为“data.zip”的 zip 文件。我们使用了 **with** 语句来确保在将 DataFrame 写入文件对象后关闭该对象。“compression=zipfile.ZIP_DEFLATED”参数告诉 ZipFile 对象使用 DEFLATE 压缩算法。ZipFile 对象的 open() 方法在名为“data.csv”的 zip 文件中创建一个文件对象。“index=False”参数告诉 to_csv() 方法不要将行索引写入文件。

import pandas as pd
import zipfile

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
   'Age': [25, 30, 35],
   'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# Save DataFrame as a zip file
with zipfile.ZipFile('data.zip', 'w', compression=zipfile.ZIP_DEFLATED) as z:
   with z.open('data.csv', 'w') as f:
   df.to_csv(f, index=False)

输出

Name	Age	Name
Alice	25	Alice
Bob	30	Bob
Charlie	35	Charlie

方法 2：使用带 gzip/zip 压缩的 to_pickle() 方法

DataFrame 对象的 to_pickle() 方法可用于将 DataFrame 保存为具有 gzip 或 zip 压缩的 pickle 文件。

语法

df.to_pickle('data.pkl.gz', compression='gzip')
df.to_pickle('data.pkl.zip', compression='zip')

在这里，**to_pickle()** 方法将 Pandas DataFrame 保存为具有 gzip 或 zip 压缩的压缩 pickle 文件。“compression='gzip'”或“compression='zip'”参数告诉该方法对输出文件应用 gzip 或 zip 压缩。

示例

在下面的代码中，我们分别使用 to_pickle() 方法将 DataFrame 保存为具有 gzip 和 zip 压缩的 pickle 文件。“compression='gzip'”或“compression='zip'”参数告诉该方法对输出文件应用 gzip 或 zip 压缩。

import pandas as pd

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
      'Age': [25, 30, 35],
      'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# Save DataFrame as a gzipped pickle file
df.to_pickle('data.pkl.gz', compression='gzip')

# Save DataFrame as a zipped pickle file
df.to_pickle('data.pkl.zip', compression='zip')

输出

Name	Age	Name
Alice	25	Alice
Bob	30	Bob
Charlie	35	Charlie

方法 3：使用带 gzip/zip 压缩的 to_parquet 方法

DataFrame 对象的 to_parquet() 方法可用于使用 PyArrow 库将 DataFrame 保存为具有 gzip 或 zip 压缩的 Parquet 文件。

语法

pq.write_table(table, 'data.parquet.gz', compression='gzip')
pq.write_table(table, 'data.parquet.zip', compression='snappy')

在这里，write_table() 方法使用 PyArrow 库将 Pandas DataFrame 保存为压缩的 Parquet 文件。“compression='gzip'”或“compression='snappy'”参数告诉该方法对输出文件应用 gzip 或 snappy 压缩。

示例

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
      'Age': [25, 30, 35],
      'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# Convert DataFrame to PyArrow table
table = pa.Table.from_pandas(df)

# Save PyArrow table as a gzipped Parquet file
pq.write_table(table, 'data.parquet.gz', compression='gzip')

# Save PyArrow table as a zipped Parquet file
pq.write_table(table, 'data.parquet.zip', compression='snappy')

输出

Name	Age	Name
Alice	25	Alice
Bob	30	Bob
Charlie	35	Charlie

结论

在本文中，我们讨论了如何使用 Python 将 Pandas DataFrame 保存为 gzip/zip 文件。我们使用 gzip 模块创建 gzip 文件，使用 zipfile 模块创建 zip 文件。这两种压缩格式都广泛使用，可以帮助减小大型数据文件的大小，从而更易于存储和传输。对于基于文本的数据，Gzip 的压缩率通常更好，而 zip 文件更适合压缩二进制文件，如图像或其他非文本数据。

Rohan Singh

更新于：2023年7月11日

6000+ 次浏览

开启你的职业生涯

完成课程获得认证

开始学习