构建一个完整的 Data Science Docker 容器


毫无疑问,如今在科技界最热门的词语是机器学习和人工智能。组织机构正以前所未有的速度尝试采用机器学习技术来分析和改进其业务,并提供更高的客户满意度。另一方面,容器化的革命性概念极大地简化了数百万开发人员的生活,并帮助他们采用更好的技术来维护、重用和跟踪项目,从而获得无缝的体验。

在本文中,我们将讨论如何构建一个完整的 Data Science 容器。我们将创建一个包含所有必要库和软件包的容器化环境,帮助您开始机器学习和数据科学之旅。我们将了解如何在任何机器学习代码中安装核心软件包,并将它们嵌入到 Dockerfile 中以构建我们的镜像。事不宜迟,让我们看看如何做到这一点。

首先,让我们看看构建基本的机器学习 Python 脚本需要安装哪些 Python 库。

  • **Pandas** - 它通过帮助我们维护结构化和非结构化数据集来帮助执行数据分析。它还提供重塑和组织数据的工具,以便从中提取重要的见解。

  • **Numpy** - 它提供计算大型矩阵和多维数组的方法。它拥有众多预编译的方法,使计算成本低于普通代数。

  • **Matplotlib** - 它通过在特征之间绘制图形来帮助您从数据框中获取重要的见解,并帮助您仔细检查数据点,从而帮助您确定哪个机器学习模型适合您的问题陈述。

  • **Scikit-learn** - 此软件包是所有机器学习 Python 脚本的核心。它包含众多机器学习算法。无论是监督算法还是无监督算法,应有尽有。它还可以帮助您拆分数据集、通过删除非法值来构建数据集等等。

  • **Scipy** - 此库帮助您非常轻松地在数据集中执行科学计算。它提供了几种方法来执行高级操作,例如计算概率、转换等。

  • **NLTK** - 如果您正在 NLP 领域工作,您肯定听说过这个库。它可以帮助您执行词干提取、词形还原、词性标注、语义分析等。

现在我们已经了解了用于机器学习和数据科学的核心库,我们将尝试构建 Dockerfile 来安装这些软件包。

我们将使用 Alpine 作为我们的基础镜像以获取 Python 环境,因为它的大小非常小。

查看下面的 Dockerfile。

FROM alpine:latest

WORKDIR /usr/src/app

RUN apt-get −y update
RUN pip3 install −r requirements.txt
RUN [ "python3", "−c", "import nltk; nltk.download('all')" ]

CMD ["python3"]

上面的 Dockerfile 拉取 Alpine 镜像,设置工作目录,运行 apt-get 命令,从 requirements 文件安装库,并下载 nltk 库中的所有方法以供使用。

requirements 文件应包含以下内容:

pandas
numpy
matplotlib
scikit-learn
scipy
nltk

创建 Dockerfile 和 requirements.txt 文件后,您可以使用 docker build 命令构建 Docker 镜像。

sudo docker build −t <username>/<image−name>:<tag−name> .

-t 标记用于标记镜像。虽然不是必须的,但始终建议这样做。

成功构建镜像后,您可以使用以下 docker run 命令运行 Docker 容器。

sudo docker run −it <username>/<image−name>:<tag−name>

总之,在本文中,我们了解了如何构建一个 Docker 容器,其中包含开始机器学习和数据科学之旅所需的所有基本 Python 库和软件包。您始终可以通过启动 bash 并根据需要运行相应的命令来安装其他库。

更新于: 2020年10月27日

152 次浏览

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告