提升机器学习模型性能(续…)



通过算法调整提升性能

众所周知,机器学习模型的参数化方式使得其行为可以针对特定问题进行调整。算法调整意味着找到这些参数的最佳组合,从而提高机器学习模型的性能。此过程有时称为超参数优化,算法本身的参数称为超参数,而机器学习算法找到的系数称为参数。

在这里,我们将讨论Python Scikit-learn提供的一些算法参数调整方法。

网格搜索参数调整

这是一种参数调整方法。这种方法的关键在于它系统地构建和评估网格中指定的每个可能的算法参数组合的模型。因此,可以说这种算法具有搜索特性。

示例

在下面的Python示例中,我们将使用sklearn的GridSearchCV类进行网格搜索,以评估皮马印第安人糖尿病数据集上岭回归算法的各种alpha值。

首先,导入所需的包,如下所示:

import numpy
from pandas import read_csv
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

现在,我们需要像之前的例子一样加载皮马糖尿病数据集:

path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]

接下来,评估各种alpha值,如下所示:

alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0])
param_grid = dict(alpha=alphas)

现在,我们需要在我们的模型上应用网格搜索:

model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid.fit(X, Y)

使用以下脚本行打印结果:

print(grid.best_score_)
print(grid.best_estimator_.alpha)

输出

0.2796175593129722
1.0

上面的输出给我们提供了最佳分数以及在网格中达到该分数的参数集。在这种情况下,alpha值为1.0。

随机搜索参数调整

这是一种参数调整方法。这种方法的关键在于它在固定的迭代次数内从随机分布中采样算法参数。

示例

在下面的Python示例中,我们将使用sklearn的RandomizedSearchCV类进行随机搜索,以评估皮马印第安人糖尿病数据集上岭回归算法的0到1之间的不同alpha值。

首先,导入所需的包,如下所示:

import numpy
from pandas import read_csv
from scipy.stats import uniform
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV

现在,我们需要像之前的例子一样加载皮马糖尿病数据集:

path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]

接下来,评估岭回归算法上的各种alpha值,如下所示:

param_grid = {'alpha': uniform()}
model = Ridge()
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=50,
random_state=7)
random_search.fit(X, Y)

使用以下脚本行打印结果:

print(random_search.best_score_)
print(random_search.best_estimator_.alpha)

输出

0.27961712703051084
0.9779895119966027

上面的输出与网格搜索类似,也给了我们最佳分数。

广告