使用 Python 载入机器学习项目 CSV 数据的各种方法
为了成功地构建一个机器学习项目,正确地加载数据是最重要也是最具挑战性的任务之一。CSV 是机器学习项目最常见的格式。它是一种用于存储表格数据的简单格式。
以下是在 Python 中使用机器学习项目加载 CSV 数据的三个最常见方法 −
使用 Python 标准库
为了加载 CSV 数据文件,Python 标准库为我们提供了名为csv 模块的内置函数。
示例
在此示例中,我们将加载鸢尾花数据集的 CSV 数据文件 −
#Importing csv module import csv #To convert the data into NumPy array, import numpy module: import numpy as np #Providing the full path of the CSV data file which is stored on our local directory: datafile_path = r"c:/Users/ Desktop/iris.csv" # Reading data using the csv.reader()function: with open(datafile_path,'r') as f: reader = csv.reader(f,delimiter = ',') data_headers = next(reader) data = list(reader) data = np.array(data).astype(float) #Printing the names of the data headers and the first 5 lines of the data file: print(data_headers) print(data[:5])
输出
['sepal_length', 'sepal_width', 'petal_length', 'petal_width'] [ [5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3.6 1.4 0.2] ]
使用 Pandas
我们可以用来加载 CSV 数据文件是另一个方式是 pandas.read_csv() 函数。此函数将返回一个 pandas.DataFrame,可立即用于绘图。
示例
在此示例中,我们将加载皮马印第安人数据集的 CSV 数据文件 −
#Importing read_csv function from Pandas from pandas import read_csv #Providing the full path of the CSV data file which is stored on our local directory: datafile_path = r"C:/Users/Leekha/Desktop/pima-indians-diabetes.csv" #Providing header names and reading data using read_csv() function: headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = read_csv(datafile_path, names=headernames) #Printing the number of rows and columns in the file and first 5 lines of the data file: print(data.shape) print(data[:5])
输出
(768, 9) preg plas pres skin test mass pedi age class 0 6 148 72 35 0 33.6 0.627 50 1 1 1 85 66 29 0 26.6 0.351 31 0 2 8 183 64 0 0 23.3 0.672 32 1 3 1 89 66 23 94 28.1 0.167 21 0 4 0 137 40 35 168 43.1 2.288 33 1
广告