如何使用cuDF加速Pandas？

在数据分析领域中，Python 的应用非常广泛，Pandas 作为一款著名的库，因其强大的数据处理能力而被广泛使用。然而，在使用 Pandas 处理大型数据集时，尤其是在以 CPU 为中心的系统上，可能会遇到速度瓶颈。解决此问题的绝佳方案是 cuDF，这是一个由 NVIDIA 在 RAPIDS 生态系统下精心打造的 GPU DataFrame 库。cuDF巧妙地利用了 GPU 的强大功能来实现并行数据处理，从而在性能方面显著优于传统的 Pandas 操作。本文旨在指导您如何使用 cuDF 加速 Pandas，并为每一行代码提供清晰的解释。

获取 cuDF

在深入研究代码的核心之前，务必确保已在您的环境中成功安装了 cuDF。您可以通过 Conda（Python 的知名软件包管理器）来实现这一点：

conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults cudf

请注意，cuDF 需要兼容的 NVIDIA GPU 和 CUDA 工具包才能获得最佳功能。有关安装说明和系统要求的完整指南，请访问官方 cuDF 文档：https://rapids.org.cn/start.html

调用 Pandas 和 cuDF

一旦拥有了必要的库，就可以将 Pandas 和 cuDF 引入您的 Python 脚本中：

import pandas as pd
import cudf

将数据导入 Pandas DataFrame

首先，我们将数据导入 Pandas DataFrame。为简单起见，我们将使用 pd.DataFrame() 构造函数创建一个示例 DataFrame。

data = {
   'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
   'Age': [25, 30, 35, 28, 22],
   'City': ['New York', 'Los Angeles', 'Chicago', 'San Francisco', 'Austin']
}
pandas_df = pd.DataFrame(data)

将 Pandas DataFrame 转换为 cuDF DataFrame

为了利用 cuDF 提供的 GPU 处理能力，下一步需要将 Pandas DataFrame 转换为 cuDF DataFrame。可以使用 cudf.from_pandas() 函数执行此转换：

cudf_df = cudf.from_pandas(pandas_df)

从现在开始，对 cudf_df DataFrame 执行的任何操作都将在 GPU 上执行，与基于 CPU 的 Pandas 操作相比，可以带来显著的速度提升。

使用 cuDF 执行数据处理

现在数据已转换为 cuDF DataFrame，您可以执行各种数据处理操作，类似于 Pandas 提供的功能。例如，让我们过滤 DataFrame，仅包含“年龄”大于 25 的行：

filtered_cudf_df = cudf_df[cudf_df['Age'] > 25]
print(filtered_cudf_df)

请注意，语法和函数调用与 Pandas 几乎相同，从而简化了两个库之间的转换。

将 cuDF DataFrame 还原为 Pandas DataFrame

在使用 cuDF 执行所需的数据处理操作后，您可能需要将 cuDF DataFrame 还原为 Pandas DataFrame 以进行进一步处理或导出。为此，请使用 to_pandas() 函数：

filtered_pandas_df = filtered_cudf_df.to_pandas()

以下是完整的 Python 代码：

# Step 1: Installing cuDF (run this in your system's terminal or command prompt)
# conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults cudf

# Step 2: Importing Pandas and cuDF
import pandas as pd
import cudf

# Step 3: Creating a Pandas DataFrame
data = {
   'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
   'Age': [25, 30, 35, 28, 22],
   'City': ['New York', 'Los Angeles', 'Chicago', 'San Francisco', 'Austin']
}
pandas_df = pd.DataFrame(data)
print(pandas_df)

# Step 4: Converting Pandas DataFrame to cuDF DataFrame
cudf_df = cudf.from_pandas(pandas_df)

# Step 5: Applying data manipulation on cuDF DataFrame
filtered_cudf_df = cudf_df[cudf_df['Age'] > 25]
print(filtered_cudf_df)

# Step 6: Converting cuDF DataFrame back to Pandas DataFrame
filtered_pandas_df = filtered_cudf_df.to_pandas()
print(filtered_pandas_df)

此脚本创建了一个包含一些示例数据的 Pandas DataFrame。然后将其转换为 cuDF DataFrame，以便您可以使用 GPU 处理能力进行数据操作。该脚本过滤 cuDF DataFrame，仅包含“年龄”大于 25 的行。最后，它将 cuDF DataFrame 转换回 Pandas DataFrame。

基于此，预测输出将是

Pandas DataFrame

      Name  Age           City
0    Alice   25       New York
1      Bob   30    Los Angeles
2  Charlie   35        Chicago
3    David   28  San Francisco
4      Eva   22         Austin

过滤后的 cuDF DataFrame

      Name  Age           City
1      Bob   30    Los Angeles
2  Charlie   35        Chicago
3    David   28  San Francisco

过滤后的 Pandas DataFrame

      Name  Age           City
1      Bob   30    Los Angeles
2  Charlie   35        Chicago
3    David   28  San Francisco

结论

总而言之，cuDF 作为 RAPIDS 生态系统的一部分，提供了一种提升数据分析任务性能的途径。它与 Pandas 在 API 方面的惊人相似性，使其成为习惯使用 Pandas 操作的用户的一个极佳工具。通过利用 GPU 并行处理的强大功能，cuDF 在管理大型数据集时能够显著提高性能。随着数据处理领域的不断发展，整合 cuDF 等工具将进一步简化您的工作流程，提高数据科学项目中的效率和生产力。因此，请大胆尝试，并让您的数据故事精彩呈现！

Tushar Sharma

更新于： 2023年8月9日

253 次浏览

开启你的职业生涯

通过完成课程获得认证

开始学习