使用 Python Selenium 保存网页
我们可以使用 Python 中的 Selenium webdriver 保存网页。要保存页面,我们首先需要使用 page_source 方法获取网页背后的页面源代码。
我们必须使用 codecs.open 方法打开具有特定编码的文件。该文件必须以 w 表示的写模式和 utf−8 作为编码类型打开。然后,使用 write 方法来写入从 page_source 方法获取的内容。
语法
n = os.path.join("C:\Users\ghs6kor\Downloads\Test", "PageSave.html") f = codecs.open(n, "w", "utf−8") h = driver.page_source f.write(h)
让我们尝试保存以下网页 −
示例
from selenium import webdriver import codecs #set chromedriver.exe path driver = webdriver.Chrome(executable_path="C:\chromedriver.exe") driver.implicitly_wait(0.5) #maximize browser driver.maximize_window() #launch URL driver.get("https://tutorialspoint.com/index.htm") #get file path to save page n=os.path.join("C:\Users\ghs6kor\Downloads\Test","Page.html") #open file in write mode with encoding f = codecs.open(n, "w", "utf−8") #obtain page source h = driver.page_source #write page source content to file file.write(h) #close browser driver.quit()
输出
在浏览器中打开 Page.html 文件时。
广告