如何使用 Selenium 从网页中提取文本并将其另存为文本文件?


我们可以使用 Selenium webdriver 从网页中提取文本,并使用 getText 方法将其另存为文本文件。它可以提取显示的元素(而不是被 CSS 隐藏的元素)的文本。

我们必须使用任何一种定位器在页面上找到元素,例如 id、class、name、xpath、css、tag name、link text 或 partial link text。获取文本后,我们将使用 File 类将其内容写入文件。

让我们获取以下页面中的文本 - 您正在浏览 Online Education 的最佳资源 -

示例

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.firefox.FirefoxDriver;
import java.util.concurrent.TimeUnit;
import java.io.File;
import java.io.IOException;
import org.apache.commons.io.FileUtils;
import java.nio.charset.Charset;
public class GetTxtSaveFile{
   public static void main(String[] args) {
      System.setProperty("webdriver.gecko.driver",
         "C:\Users\ghs6kor\Desktop\Java\geckodriver.exe");
      WebDriver driver = new FirefoxDriver();
      //implicit wait
      driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);
      //URL launch
      driver.get("https://tutorialspoint.com/index.htm");
      // identify element
      WebElement e = driver.findElement(By.tagName("h4"));
      //obtain text
      String s = e.getText();
      //write text to file

      File f = new File("savetxt.txt");
      try{
         FileUtils.writeStringToFile(f, s, Charset.defaultCharset());
      }catch(IOException exc){
         exc.printStackTrace();
      }
      driver.quit();
   }
}

输出

savetxt.txt 文件会在项目中生成,其中捕获自该页面的文本。

更新于: 06-04-2021

4K+ 浏览次数

开启你的职业生涯

完成课程以获得认证

开始
广告