- TIKA 教程
- TIKA - 首页
- TIKA - 概述
- TIKA - 架构
- TIKA - 环境
- TIKA - 参考 API
- TIKA - 文件格式
- TIKA - 文档类型检测
- TIKA - 内容提取
- TIKA - 元数据提取
- TIKA - 语言检测
- TIKA - 图形用户界面 (GUI)
- TIKA 有用资源
- TIKA - 快速指南
- TIKA - 有用资源
- TIKA - 讨论
TIKA - 参考 API
用户可以使用 Tika facade 类将 Tika 嵌入他们的应用程序中。它具有探索 Tika 所有功能的方法。因为它是一个 facade 类,所以 Tika 隐藏了其功能背后的复杂性。除此之外,用户还可以将 Tika 的各种类用于他们的应用程序。
Tika 类 (facade)
这是 Tika 库中最突出的类,遵循外观设计模式。因此,它抽象了所有内部实现,并提供简单的访问 Tika 功能的方法。下表列出了此类的构造函数及其描述。
包 − org.apache.tika
类 − Tika
序号 | 构造函数和描述 |
---|---|
1 |
Tika () 使用默认配置并构造 Tika 类。 |
2 |
Tika (Detector detector) 通过接受检测器实例作为参数来创建 Tika facade。 |
3 |
Tika (Detector detector, Parser parser) 通过接受检测器和解析器实例作为参数来创建 Tika facade。 |
4 |
Tika (Detector detector, Parser parser, Translator translator) 通过接受检测器、解析器和翻译器实例作为参数来创建 Tika facade。 |
5 |
Tika (TikaConfig config) 通过接受 TikaConfig 类的对象作为参数来创建 Tika facade。 |
方法和描述
以下是 Tika facade 类的重要方法:
序号 | 方法和描述 |
---|---|
1 |
parseToString (File file) 此方法及其所有变体解析作为参数传递的文件,并以 String 格式返回提取的文本内容。默认情况下,此字符串参数的长度是有限制的。 |
2 |
int getMaxStringLength () 返回 parseToString 方法返回的字符串的最大长度。 |
3 |
void setMaxStringLength (int maxStringLength) 设置 parseToString 方法返回的字符串的最大长度。 |
4 |
Reader parse (File file) 此方法及其所有变体解析作为参数传递的文件,并以 java.io.reader 对象的形式返回提取的文本内容。 |
5 |
String detect (InputStream stream, Metadata metadata) 此方法及其所有变体接受 InputStream 对象和 Metadata 对象作为参数,检测给定文档的类型,并以 String 对象返回文档类型名称。此方法抽象了 Tika 使用的检测机制。 |
6 |
String translate (InputStream text, String targetLanguage) 此方法及其所有变体接受 InputStream 对象和一个表示我们想要将文本翻译成的语言的字符串,并将给定文本翻译成所需的语言,尝试自动检测源语言。 |
Parser 接口
这是 Tika 包的所有解析器类实现的接口。
包 − org.apache.tika.parser
接口 − Parser
方法和描述
以下是 Tika Parser 接口的重要方法:
序号 | 方法和描述 |
---|---|
1 |
parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) 此方法将给定文档解析成一系列 XHTML 和 SAX 事件。解析后,它将提取的文档内容放在 ContentHandler 类的对象中,并将元数据放在 Metadata 类的对象中。 |
Metadata 类
此类实现了各种接口,例如 CreativeCommons、Geographic、HttpHeaders、Message、MSOffice、ClimateForcast、TIFF、TikaMetadataKeys、TikaMimeKeys、Serializable,以支持各种数据模型。下表列出了此类的构造函数和方法及其描述。
包 − org.apache.tika.metadata
类 − Metadata
序号 | 构造函数和描述 |
---|---|
1 |
Metadata() 构造一个新的空元数据。 |
序号 | 方法和描述 |
---|---|
1 |
add (Property property, String value) 将元数据属性/值映射添加到给定文档。使用此函数,我们可以将值设置为属性。 |
2 |
add (String name, String value) 将元数据属性/值映射添加到给定文档。使用此方法,我们可以为文档的现有元数据设置新的名称值。 |
3 |
String get (Property property) 返回给定元数据属性的值(如果有)。 |
4 |
String get (String name) 返回给定元数据名称的值(如果有)。 |
5 |
Date getDate (Property property) 返回日期元数据属性的值。 |
6 |
String[] getValues (Property property) 返回元数据属性的所有值。 |
7 |
String[] getValues (String name) 返回给定元数据名称的所有值。 |
8 |
String[] names() 返回元数据对象中所有元数据元素的名称。 |
9 |
set (Property property, Date date) 设置给定元数据属性的日期值。 |
10 |
set(Property property, String[] values) 将多个值设置为元数据属性。 |
语言标识符类
此类识别给定内容的语言。下表列出了此类的构造函数及其描述。
包 − org.apache.tika.language
类 − LanguageIdentifier
序号 | 构造函数和描述 |
---|---|
1 |
LanguageIdentifier (LanguageProfile profile) 实例化语言标识符。在这里,您必须传递 LanguageProfile 对象作为参数。 |
2 |
LanguageIdentifier (String content) 此构造函数可以通过传递文本内容的字符串来实例化语言标识符。 |
序号 | 方法和描述 |
---|---|
1 |
String getLanguage () 返回赋予当前 LanguageIdentifier 对象的语言。 |