如何使用 Boto3 启动 AWS Glue 数据目录中爬虫的调度程序

AWS Boto3 Python 服务器端编程编程

本文将介绍用户如何启动 AWS Glue 数据目录中爬虫的调度程序。

示例

启动 AWS Glue 数据目录中可用的爬虫调度程序。

问题陈述：使用 Python 中的 boto3 库启动爬虫的调度程序。

解决此问题的方法/算法

步骤 1：导入 **boto3** 和 **botocore** 异常以处理异常。
步骤 2：**crawler_name** 是此函数中必需的参数。
步骤 3：使用 **boto3 库**创建 AWS 会话。确保在默认配置文件中提到了 **region_name**。如果未提及，则在创建会话时显式传递 **region_name**。
步骤 4：为 **glue** 创建 AWS 客户端。
步骤 5：现在使用 **start_crawler_schedule 函数**并将参数 **crawler_name** 作为 CrawlerName 传递。
步骤 6：它返回响应元数据并将爬虫的调度状态设置为 SCHEDULED。如果爬虫的状态正在运行或调度状态已经是 SCHEDULED，则它会抛出异常 - **SchedulerRunningException**。
步骤 7：如果启动爬虫的调度程序时出现问题，请处理通用异常。

示例代码

以下代码启动爬虫的调度程序：

import boto3
from botocore.exceptions import ClientError

def start_scheduler_of_a_crawler(crawler_name)
   session = boto3.session.Session()
   glue_client = session.client('glue')
   try:
      response = glue_client.start_crawler_schedule(CrawlerName=crawler_name)
      return response
   except ClientError as e:
      raise Exception("boto3 client error in start_scheduler_of_a_crawler: " + e.__str__())
   except Exception as e:
      raise Exception("Unexpected error in start_scheduler_of_a_crawler: " + e.__str__())
print(start_scheduler_of_a_crawler("Data Dimension"))

输出

{'ResponseMetadata': {'RequestId': '73e50130-*****************8e', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Sun, 28 Mar 2021 07:26:55 GMT', 'content-type': 'application/x-amz-json-1.1', 'content-length': '2', 'connection': 'keep-alive', 'x-amzn-requestid': '73e50130-***************8e'}, 'RetryAttempts': 0}}

Ashish Anand

更新于：2021年4月15日

浏览量 180

启动您的职业生涯

通过完成课程获得认证

开始

如何使用 Boto3 启动 AWS Glue 数据目录中爬虫的调度程序

示例

解决此问题的方法/算法

示例代码

输出

启动您的 职业生涯

启动您的职业生涯