TIKA - 环境



本章将引导您完成在 Windows 和 Linux 上设置 Apache Tika 的过程。安装 Apache Tika 时需要进行用户管理。

系统要求

JDK Java SE 2 JDK 1.6 或更高版本
内存 1 GB RAM(推荐)
磁盘空间 无最低要求
操作系统版本 Windows XP 或更高版本,Linux

步骤 1:验证 Java 安装

要验证 Java 安装,请打开控制台并执行以下java命令。

操作系统 任务 命令
Windows 打开命令控制台 \>java –version
Linux 打开命令终端 $java –version

如果 Java 已在您的系统上正确安装,则您应该获得以下输出之一,具体取决于您正在使用的平台。

操作系统 输出
Windows

Java 版本 "1.7.0_60"

Java (TM) SE 运行时环境 (build 1.7.0_60-b19)

Java Hotspot (TM) 64 位服务器 VM (build 24.60-b09, mixed mode)

Linux

java 版本 "1.7.0_25"

Open JDK 运行时环境 (rhel-2.3.10.4.el6_4-x86_64)

Open JDK 64 位服务器 VM (build 23.7-b01, mixed mode)

步骤 2:设置 Java 环境

将 JAVA_HOME 环境变量设置为指向 Java 在您的计算机上安装的基本目录位置。例如,

操作系统 输出
Windows 将环境变量 JAVA_HOME 设置为 C:\ProgramFiles\java\jdk1.7.0_60
Linux export JAVA_HOME = /usr/local/java-current

将 Java 编译器位置的完整路径附加到系统路径。

操作系统 输出
Windows 将字符串;C:\Program Files\Java\jdk1.7.0_60\bin 附加到系统变量 PATH 的末尾。
Linux export PATH = $PATH:$JAVA_HOME/bin/

如上所述,从命令提示符验证命令 java-version。

步骤 3:设置 Apache Tika 环境

程序员可以通过使用以下方法将其环境集成到 Apache Tika 中

  • 命令行,
  • Tika API,
  • Tika 的命令行界面 (CLI),
  • Tika 的图形用户界面 (GUI),或
  • 源代码。

对于任何这些方法,首先,您必须下载 Tika 的源代码。

您将在https://Tika.apache.org/download.html找到 Tika 的源代码,您将找到两个链接 -

  • apache-tika-1.6-src.zip - 它包含 Tika 的源代码,以及

  • Tika -app-1.6.jar - 它是一个包含 Tika 应用程序的 jar 文件。

下载这两个文件。下面显示了 Tika 官方网站的快照。

Tika Environment

下载文件后,为 jar 文件tika-app-1.6.jar设置类路径。添加 jar 文件的完整路径,如下表所示。

操作系统 输出
Windows 将字符串“C:\jars\Tika-app-1.6.jar”附加到用户环境变量 CLASSPATH
Linux

Export CLASSPATH = $CLASSPATH −

/usr/share/jars/Tika-app-1.6.tar −

Apache 提供 Tika 应用程序,这是一个使用 Eclipse 的图形用户界面 (GUI) 应用程序。

使用 Eclipse 的 Tika-Maven 构建

m2e Release
  • 选择最新版本并在 p2 url 列中保存 url 的路径。

  • 现在重新访问 Eclipse,在菜单栏中,单击帮助,然后从下拉菜单中选择安装新软件

Eclipse
  • 单击添加按钮,键入任何所需的名称,因为它是可选的。现在将保存的 url 粘贴到位置字段中。

  • 将添加一个新的插件,其名称是您在上一步中选择的,选中其前面的复选框,然后单击下一步

Install
  • 继续安装。完成后,重新启动 Eclipse。

  • 现在右键单击项目,然后在配置选项中,选择转换为 Maven 项目

  • 将出现一个用于创建新 pom 的新向导。输入 Group Id 为 org.apache.tika,输入 Tika 的最新版本,选择打包为 jar,然后单击完成

Maven 项目已成功安装,并且您的项目已转换为 Maven。现在您必须配置 pom.xml 文件。

配置 XML 文件

https://mvnrepository.com/artifact/org.apache.tika获取 Tika maven 依赖项

下面显示了 Apache Tika 的完整 Maven 依赖项。

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>
广告