Python中的逻辑回归 - 获取数据



本章详细讨论了在Python中执行逻辑回归所需的数据获取步骤。

下载数据集

如果您尚未下载前面提到的UCI数据集,请现在从此处下载:此处。点击“Data Folder”。您将看到以下屏幕:

Machine Learning Databases

点击给定的链接下载bank.zip文件。zip文件包含以下文件:

Bank

我们将使用bank.csv文件进行模型开发。bank-names.txt文件包含数据库的描述,您稍后会需要。bank-full.csv包含更大的数据集,您可以将其用于更高级的开发。

这里我们已将bank.csv文件包含在可下载的源代码zip文件中。此文件包含逗号分隔的字段。我们也对文件进行了一些修改。建议您使用项目源代码zip文件中包含的文件进行学习。

加载数据

要加载您刚刚复制的csv文件中的数据,请键入以下语句并运行代码。

In [2]: df = pd.read_csv('bank.csv', header=0)

您还可以通过运行以下代码语句来检查加载的数据:

IN [3]: df.head()

命令运行后,您将看到以下输出:

Loaded Data

基本上,它打印了加载数据的头五行。检查存在的21列。我们只使用其中几列进行模型开发。

接下来,我们需要清理数据。数据可能包含一些带有NaN的行。要消除此类行,请使用以下命令:

IN [4]: df = df.dropna()

幸运的是,bank.csv不包含任何带有NaN的行,因此此步骤在我们的案例中并非真正必需。但是,通常很难在一个巨大的数据库中发现此类行。因此,运行上述语句来清理数据始终更安全。

注意 - 您可以随时使用以下语句轻松检查数据大小:

IN [5]: print (df.shape)
(41188, 21)

行数和列数将如上面的第二行所示打印在输出中。

接下来要做的就是检查每一列对于我们试图构建的模型的适用性。

广告