如何使用 Boto3 检查正在运行的 Glue Job 的状态?


问题陈述 - 使用 Python 中的 boto3 库运行 Glue 作业并获取其成功或失败的状态。例如,运行作业 run_s3_file_job 并获取其状态。

解决此问题的方法/算法

步骤 1 - 导入 boto3 和 botocore 异常以处理异常。

步骤 2 - job_name 是必填参数,而 arguments 是函数中的可选参数。一些作业需要参数才能运行。在这种情况下,参数可以作为字典传递。

例如:arguments = {‘arguments1’ = ‘value1’, ‘arguments2’ = ‘value2’}

如果作业不需要参数,则只需传递 job_name。

步骤 3 - 使用 boto3 库创建 AWS 会话。确保在默认配置文件中提到了 region_name。如果未提及,则在创建会话时显式传递 region_name。

步骤 4 - 为 Glue 创建 AWS 客户端。

步骤 5 - 现在使用 start_job_run 函数并传递 JobName 和(如果需要)参数。

步骤 6 - 作业启动后,它会提供包含作业元数据的 job_run_id

步骤 7 - 使用函数 get_job_run 并从上一个函数的结果中传递参数 RunId。它返回有关状态的字典。

步骤 8 - 现在,获取作业的特定状态。如果作业未完成,则状态可能是 Running,否则为 SUCCEEDED/FAILED。

步骤 9 - 如果在检查作业时出现任何错误,则处理通用异常。

示例

使用以下代码运行并获取现有 Glue 作业的状态 -

import boto3
from botocore.exceptions import ClientError

def run_glue_job_get_status(job_name, arguments = {}):
   session = boto3.session.Session()
   glue_client = session.client('glue')
   try:
      job_run_id = glue_client.start_job_run(JobName=job_name, Arguments=arguments)
      status_detail = glue_client.get_job_run(JobName=job_name, RunId = job_run_id.get("JobRunId"))
      status = status_detail.get("JobRun").get("JobRunState")
      return status
   except ClientError as e:
      raise Exception( "boto3 client error in run_glue_job_get_status: " + e.__str__())
   except Exception as e:
      raise Exception( "Unexpected error in run_glue_job_get_status: " + e.__str__())

#Get status 1st time
print(run_glue_job_get_status("run_s3_file_job"))
#Get status 2nd time after waiting
time.sleep(10)
print(run_glue_job_get_status("run_s3_file_job"))

输出

##Get status 1st time
Running
#Get status 2nd time after waiting
SUCCEEDED

更新于: 2021年3月22日

3K+ 浏览量

启动您的 职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.