Python 网络爬虫 - 动态网站



在本章中,让我们学习如何在动态网站上执行网络爬虫以及所涉及的概念。

简介

网络爬虫是一项复杂的任务,如果网站是动态的,复杂性就会成倍增加。根据联合国全球网络可访问性审计,超过 70% 的网站本质上是动态的,它们依赖 JavaScript 来实现其功能。

动态网站示例

让我们来看一个动态网站的示例,并了解为什么它难以爬取。这里我们将以从名为 http://example.webscraping.com/places/default/search 的网站搜索为例。但我们如何才能说这个网站是动态的呢?可以通过以下 Python 脚本的输出判断,该脚本将尝试从上面提到的网页抓取数据 -

import re
import urllib.request
response = urllib.request.urlopen('http://example.webscraping.com/places/default/search')
html = response.read()
text = html.decode()
re.findall('(.*?)',text)

输出

[ ]

以上输出显示,示例爬虫未能提取信息,因为我们尝试查找的 <div> 元素为空。

从动态网站抓取数据的方法

我们已经看到,爬虫无法从动态网站抓取信息,因为数据是使用 JavaScript 动态加载的。在这种情况下,我们可以使用以下两种技术从依赖动态 JavaScript 的网站抓取数据 -

  • 反向工程 JavaScript
  • 渲染 JavaScript

反向工程 JavaScript

称为反向工程的过程将非常有用,并让我们了解网页如何动态加载数据。

为此,我们需要为指定的 URL 点击“检查元素”选项卡。接下来,我们将点击“网络”选项卡以查找对该网页发出的所有请求,包括具有“/ajax”路径的 search.json。除了通过浏览器或通过“网络”选项卡访问 AJAX 数据外,我们也可以借助以下 Python 脚本来实现 -

import requests
url=requests.get('http://example.webscraping.com/ajax/search.json?page=0&page_size=10&search_term=a')
url.json() 

示例

以上脚本允许我们使用 Python json 方法访问 JSON 响应。类似地,我们可以下载原始字符串响应,并使用 python 的 json.loads 方法加载它。我们借助以下 Python 脚本执行此操作。它基本上会通过搜索字母“a”并迭代 JSON 响应的结果页面来抓取所有国家/地区。

import requests
import string
PAGE_SIZE = 15
url = 'http://example.webscraping.com/ajax/' + 'search.json?page={}&page_size={}&search_term=a'
countries = set()
for letter in string.ascii_lowercase:
   print('Searching with %s' % letter)
   page = 0
   while True:
   response = requests.get(url.format(page, PAGE_SIZE, letter))
   data = response.json()
   print('adding %d records from the page %d' %(len(data.get('records')),page))
   for record in data.get('records'):countries.add(record['country'])
   page += 1
   if page >= data['num_pages']:
      break
   with open('countries.txt', 'w') as countries_file:
   countries_file.write('n'.join(sorted(countries))) 

运行以上脚本后,我们将获得以下输出,并且记录将保存在名为 countries.txt 的文件中。

输出

Searching with a
adding 15 records from the page 0
adding 15 records from the page 1
...

渲染 JavaScript

在上一节中,我们对网页进行了反向工程,了解了 API 的工作原理以及如何使用它在一个请求中检索结果。但是,在进行反向工程时,我们可能会遇到以下困难 -

  • 有时网站可能非常复杂。例如,如果网站是使用高级浏览器工具(如 Google Web Toolkit (GWT))创建的,则生成的 JS 代码将是机器生成的,难以理解和反向工程。

  • 一些更高级别的框架(如 React.js)可以通过抽象已经很复杂的 JavaScript 逻辑来使反向工程变得困难。

解决上述困难的办法是使用浏览器渲染引擎,该引擎解析 HTML、应用 CSS 格式并执行 JavaScript 以显示网页。

示例

在本例中,为了渲染 Java Script,我们将使用一个熟悉的 Python 模块 Selenium。以下 Python 代码将借助 Selenium 渲染网页 -

首先,我们需要从 selenium 中导入 webdriver,如下所示 -

from selenium import webdriver

现在,提供我们根据需要下载的 web driver 的路径 -

path = r'C:\\Users\\gaurav\\Desktop\\Chromedriver'
driver = webdriver.Chrome(executable_path = path)

现在,提供我们希望在现在由我们的 Python 脚本控制的 web 浏览器中打开的 url。

driver.get('http://example.webscraping.com/search')

现在,我们可以使用搜索工具箱的 ID 将元素设置为选中。

driver.find_element_by_id('search_term').send_keys('.')

接下来,我们可以使用 java 脚本将选择框内容设置为如下 -

js = "document.getElementById('page_size').options[1].text = '100';"
driver.execute_script(js)

以下代码行显示搜索已准备好点击网页 -

driver.find_element_by_id('search').click()

下一行代码显示它将等待 45 秒以完成 AJAX 请求。

driver.implicitly_wait(45)

现在,为了选择国家/地区链接,我们可以使用 CSS 选择器,如下所示 -

links = driver.find_elements_by_css_selector('#results a')

现在可以提取每个链接的文本以创建国家/地区列表 -

countries = [link.text for link in links]
print(countries)
driver.close()
广告