使用 Python Selenium 保存网页


我们可以使用 Python 中的 Selenium webdriver 保存网页。要保存页面,我们首先需要使用 page_source 方法获取网页背后的页面源代码。

我们必须使用 codecs.open 方法打开具有特定编码的文件。该文件必须以 w 表示的写模式和 utf−8 作为编码类型打开。然后,使用 write 方法来写入从 page_source 方法获取的内容。

语法

n = os.path.join("C:\Users\ghs6kor\Downloads\Test", "PageSave.html")
f = codecs.open(n, "w", "utf−8")
h = driver.page_source
f.write(h)

让我们尝试保存以下网页 −

示例

from selenium import webdriver
import codecs
#set chromedriver.exe path
driver = webdriver.Chrome(executable_path="C:\chromedriver.exe")
driver.implicitly_wait(0.5)
#maximize browser
driver.maximize_window()
#launch URL
driver.get("https://tutorialspoint.com/index.htm")
#get file path to save page
n=os.path.join("C:\Users\ghs6kor\Downloads\Test","Page.html")
#open file in write mode with encoding
f = codecs.open(n, "w", "utf−8")
#obtain page source
h = driver.page_source
#write page source content to file
file.write(h)
#close browser
driver.quit()

输出

在浏览器中打开 Page.html 文件时。

更新于: 02-2 月 -2021

12K+ 浏览量

开启你的 职业生涯

完成课程即可获得认证

开始
广告