TensorFlow - 分布式计算



本章将重点介绍如何开始使用分布式 TensorFlow。目的是帮助开发人员理解不断的重复出现的分布式 TF 基本概念,如 TF 服务器。我们将使用 Jupyter Notebook 来评估分布式 TensorFlow。以下提到了使用 TensorFlow 实施分布式计算的方法 −

步骤 1 − 导入分布式计算所需的必要模块 −

import tensorflow as tf

步骤 2 − 使用一个节点创建 TensorFlow 集群。让此节点负责具有名称“worker”且将在 localhost:2222 上操作一个任务的任务。

cluster_spec = tf.train.ClusterSpec({'worker' : ['localhost:2222']})
server = tf.train.Server(cluster_spec)
server.target

以上脚本会生成以下输出 −

'grpc://127.0.0.1:2222'
The server is currently running.

步骤 3 − 服务器配置和相应的会话可以通过执行以下命令计算出来 −

server.server_def

以上命令会生成以下输出 −

cluster {
   job {
      name: "worker"
      tasks {
         value: "localhost:2222"
      }
   }
}
job_name: "worker"
protocol: "grpc"

步骤 4 − 启动 TensorFlow 会话,执行引擎作为服务器。使用 TensorFlow 创建一个本地服务器,并使用 lsof 找出服务器的位置。

sess = tf.Session(target = server.target)
server = tf.train.Server.create_local_server()

步骤 5 − 查看此会话中可用的设备,并关闭相应的会话。

devices = sess.list_devices()
for d in devices:
   print(d.name)
sess.close()

以上命令会生成以下输出 −

/job:worker/replica:0/task:0/device:CPU:0
广告