H2O - 简介



您是否曾经被要求在一个巨大的数据库上开发机器学习模型?通常,客户会提供数据库并要求您进行某些预测,例如谁将是潜在的购买者;是否可以提前检测到欺诈案件等。为了回答这些问题,您的任务将是开发一种机器学习算法,该算法可以为客户的查询提供答案。从头开始开发机器学习算法并非易事,并且当市场上有多个现成的机器学习库可用时,为什么要这样做呢?

如今,您更愿意使用这些库,从这些库中应用经过充分测试的算法并查看其性能。如果性能不在可接受的范围内,您将尝试微调当前算法或尝试完全不同的算法。

同样,您可以在同一数据集上尝试多种算法,然后选择最能满足客户需求的算法。这就是 H2O 能帮助您的地方。它是一个开源机器学习框架,具有多种广泛接受的 ML 算法的完整测试实现。您只需从其庞大的存储库中选择算法并将其应用于您的数据集即可。它包含最常用的统计和 ML 算法。

在此列举一些,包括梯度提升机 (GBM)、广义线性模型 (GLM)、深度学习等等。不仅如此,它还支持 AutoML 功能,该功能将对不同算法在您的数据集上的性能进行排名,从而减少您查找最佳性能模型的工作量。H2O 在全球 18000 多个组织中使用,并且与 R 和 Python 很好地集成,方便您开发。它是一个内存平台,提供卓越的性能。

在本教程中,您将首先学习如何在您的机器上使用 Python 和 R 选项安装 H2O。我们将了解如何在命令行中使用它,以便您逐行了解其工作原理。如果您是 Python 爱好者,您可以使用 Jupyter 或您选择的任何其他 IDE 开发 H2O 应用程序。如果您更喜欢 R,您可以使用 RStudio 进行开发。

在本教程中,我们将考虑一个示例,以了解如何使用 H2O。我们还将学习如何在程序代码中更改算法并将其性能与之前的算法进行比较。H2O 还提供了一个基于 Web 的工具来测试数据集上的不同算法。这称为 Flow。

本教程将向您介绍 Flow 的使用方法。同时,我们将讨论 AutoML 的使用方法,该方法将识别数据集上性能最佳的算法。您是否很期待学习 H2O?继续阅读!

广告

© . All rights reserved.