如何在Java中读取PDF文件中的数据并在控制台显示?


有几个库可以使用Java读取pdf中的数据。让我们看看如何使用名为PDFBox的库读取PDF文档中的数据并在控制台显示它。

您可以使用**PDFTextStripper**类的**getText()**方法提取文本。此类提取给定PDF文档中的所有文本以使用它。

  • 使用PDDocument类的静态方法load()加载现有的PDF文档。

  • 实例化PDFTextStripper类。

  • 使用PDFTextStripper类的getText()方法检索/读取PDF页面内容到字符串。

  • 最后,使用PDDocument类的close()方法关闭文档,如下所示。

示例

假设我们在D://目录中有一个名为sample.PDF的pdf,如下所示:

下面的Java程序读取上述PDF文档的内容并在控制台显示它们。

import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class PdfToConsole {
   public static void main(String args[]) throws IOException {
      //Loading an existing document
      File file = new File("D://Sample.pdf");
      PDDocument document = PDDocument.load(file);
      //Instantiate PDFTextStripper class
      PDFTextStripper pdfStripper = new PDFTextStripper();
      //Retrieving text from PDF document
      String text = pdfStripper.getText(document);
      System.out.println(text);
      //Closing the document
      document.close();
   }
}

输出

Tutorials Point originated from the idea that there exists a class of readers who respond
better to online content and prefer to learn new skills at their own pace from the comforts 
of their drawing rooms.
The journey commenced with a single tutorial on HTML in 2006 and elated by the response it
generated, we worked our way to adding fresh tutorials to our repository which now proudly 
flaunts a wealth of tutorials and allied articles on topics ranging from
programming languages to web designing to academics and much more.

更新于: 2019年9月10日

11K+ 次浏览

启动你的职业生涯

通过完成课程获得认证

开始学习
广告