使用 Python 载入机器学习项目 CSV 数据的各种方法


为了成功地构建一个机器学习项目,正确地加载数据是最重要也是最具挑战性的任务之一。CSV 是机器学习项目最常见的格式。它是一种用于存储表格数据的简单格式。

以下是在 Python 中使用机器学习项目加载 CSV 数据的三个最常见方法 −

使用 Python 标准库

为了加载 CSV 数据文件,Python 标准库为我们提供了名为csv 模块的内置函数。

示例

在此示例中,我们将加载鸢尾花数据集的 CSV 数据文件 −

#Importing csv module
import csv

#To convert the data into NumPy array, import numpy module:
import numpy as np

#Providing the full path of the CSV data file which is stored on our local directory:

datafile_path = r"c:/Users/ Desktop/iris.csv"

# Reading data using the csv.reader()function:

with open(datafile_path,'r') as f:
reader = csv.reader(f,delimiter = ',')
data_headers = next(reader)
data = list(reader)
data = np.array(data).astype(float)

#Printing the names of the data headers and the first 5 lines of the data file:
print(data_headers)
print(data[:5])

输出

['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
[
  [5.1 3.5 1.4 0.2]
  [4.9 3.  1.4 0.2]
  [4.7 3.2 1.3 0.2]
  [4.6 3.1 1.5 0.2]
  [5.  3.6 1.4 0.2]
]

使用 Pandas

我们可以用来加载 CSV 数据文件是另一个方式是 pandas.read_csv() 函数。此函数将返回一个 pandas.DataFrame,可立即用于绘图。

示例

在此示例中,我们将加载皮马印第安人数据集的 CSV 数据文件 −

#Importing read_csv function from Pandas
from pandas import read_csv

#Providing the full path of the CSV data file which is stored on our local directory:
datafile_path = r"C:/Users/Leekha/Desktop/pima-indians-diabetes.csv"

#Providing header names and reading data using read_csv() function:
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(datafile_path, names=headernames)

#Printing the number of rows and columns in the file and first 5 lines of the data file:
print(data.shape)
print(data[:5])

输出

(768, 9)
  preg plas pres  skin test  mass  pedi  age  class
0   6   148   72   35    0   33.6  0.627  50     1
1   1    85   66   29    0   26.6  0.351  31     0
2   8   183   64    0    0   23.3  0.672  32     1
3   1    89   66   23   94   28.1  0.167  21     0
4   0   137   40   35  168   43.1  2.288  33     1

更新时间: 2021-11-24

314 次浏览

开启你的职业生涯

完成课程获取认证

开始
广告