- TIKA 教程
- TIKA - 首页
- TIKA - 概述
- TIKA - 架构
- TIKA - 环境
- TIKA - 参考 API
- TIKA - 文件格式
- TIKA - 文档类型检测
- TIKA - 内容提取
- TIKA - 元数据提取
- TIKA - 语言检测
- TIKA - GUI
- TIKA 有用资源
- TIKA - 快速指南
- TIKA - 有用资源
- TIKA - 讨论
TIKA - 环境
本章将引导您完成在 Windows 和 Linux 上设置 Apache Tika 的过程。安装 Apache Tika 时需要进行用户管理。
系统要求
JDK | Java SE 2 JDK 1.6 或更高版本 |
内存 | 1 GB RAM(推荐) |
磁盘空间 | 无最低要求 |
操作系统版本 | Windows XP 或更高版本,Linux |
步骤 1:验证 Java 安装
要验证 Java 安装,请打开控制台并执行以下java命令。
操作系统 | 任务 | 命令 |
---|---|---|
Windows | 打开命令控制台 | \>java –version |
Linux | 打开命令终端 | $java –version |
如果 Java 已在您的系统上正确安装,则您应该获得以下输出之一,具体取决于您正在使用的平台。
操作系统 | 输出 |
---|---|
Windows | Java 版本 "1.7.0_60"
Java (TM) SE 运行时环境 (build 1.7.0_60-b19) Java Hotspot (TM) 64 位服务器 VM (build 24.60-b09, mixed mode) |
Linux | java 版本 "1.7.0_25" Open JDK 运行时环境 (rhel-2.3.10.4.el6_4-x86_64) Open JDK 64 位服务器 VM (build 23.7-b01, mixed mode) |
我们假设本教程的读者在继续本教程之前已在其系统上安装了 Java 1.7.0_60。
如果您没有 Java SDK,请从https://www.oracle.com/technetwork/java/javase/downloads/index.html 下载并安装其当前版本。
步骤 2:设置 Java 环境
将 JAVA_HOME 环境变量设置为指向 Java 在您的计算机上安装的基本目录位置。例如,
操作系统 | 输出 |
---|---|
Windows | 将环境变量 JAVA_HOME 设置为 C:\ProgramFiles\java\jdk1.7.0_60 |
Linux | export JAVA_HOME = /usr/local/java-current |
将 Java 编译器位置的完整路径附加到系统路径。
操作系统 | 输出 |
---|---|
Windows | 将字符串;C:\Program Files\Java\jdk1.7.0_60\bin 附加到系统变量 PATH 的末尾。 |
Linux | export PATH = $PATH:$JAVA_HOME/bin/ |
如上所述,从命令提示符验证命令 java-version。
步骤 3:设置 Apache Tika 环境
程序员可以通过使用以下方法将其环境集成到 Apache Tika 中
- 命令行,
- Tika API,
- Tika 的命令行界面 (CLI),
- Tika 的图形用户界面 (GUI),或
- 源代码。
对于任何这些方法,首先,您必须下载 Tika 的源代码。
您将在https://Tika.apache.org/download.html找到 Tika 的源代码,您将找到两个链接 -
apache-tika-1.6-src.zip - 它包含 Tika 的源代码,以及
Tika -app-1.6.jar - 它是一个包含 Tika 应用程序的 jar 文件。
下载这两个文件。下面显示了 Tika 官方网站的快照。
下载文件后,为 jar 文件tika-app-1.6.jar设置类路径。添加 jar 文件的完整路径,如下表所示。
操作系统 | 输出 |
---|---|
Windows | 将字符串“C:\jars\Tika-app-1.6.jar”附加到用户环境变量 CLASSPATH |
Linux | Export CLASSPATH = $CLASSPATH − /usr/share/jars/Tika-app-1.6.tar − |
Apache 提供 Tika 应用程序,这是一个使用 Eclipse 的图形用户界面 (GUI) 应用程序。
使用 Eclipse 的 Tika-Maven 构建
打开 Eclipse 并创建一个新项目。
如果您在 Eclipse 中没有 Maven,请按照以下步骤进行设置。
打开链接 https://wiki.eclipse.org/M2E_updatesite_and_gittags。您将在表格格式中找到 m2e 插件版本
选择最新版本并在 p2 url 列中保存 url 的路径。
现在重新访问 Eclipse,在菜单栏中,单击帮助,然后从下拉菜单中选择安装新软件
单击添加按钮,键入任何所需的名称,因为它是可选的。现在将保存的 url 粘贴到位置字段中。
将添加一个新的插件,其名称是您在上一步中选择的,选中其前面的复选框,然后单击下一步。
继续安装。完成后,重新启动 Eclipse。
现在右键单击项目,然后在配置选项中,选择转换为 Maven 项目。
将出现一个用于创建新 pom 的新向导。输入 Group Id 为 org.apache.tika,输入 Tika 的最新版本,选择打包为 jar,然后单击完成。
Maven 项目已成功安装,并且您的项目已转换为 Maven。现在您必须配置 pom.xml 文件。
配置 XML 文件
从 https://mvnrepository.com/artifact/org.apache.tika获取 Tika maven 依赖项
下面显示了 Apache Tika 的完整 Maven 依赖项。
<dependency> <groupId>org.apache.Tika</groupId> <artifactId>Tika-core</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> <artifactId> Tika-parsers</artifactId> <version> 1.6</version> <groupId> org.apache.Tika</groupId> <artifactId>Tika</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> < artifactId>Tika-serialization</artifactId> < version>1.6< /version> < groupId>org.apache.Tika< /groupId> < artifactId>Tika-app< /artifactId> < version>1.6< /version> <groupId>org.apache.Tika</groupId> <artifactId>Tika-bundle</artifactId> <version>1.6</version> </dependency>