- TIKA 教程
- TIKA - 首页
- TIKA - 概述
- TIKA - 架构
- TIKA - 环境
- TIKA - 参考 API
- TIKA - 文件格式
- TIKA - 文档类型检测
- TIKA - 内容提取
- TIKA - 元数据提取
- TIKA - 语言检测
- TIKA - GUI
- TIKA 有用资源
- TIKA - 快速指南
- TIKA - 有用资源
- TIKA - 讨论
TIKA - 文件格式
Tika 支持的文件格式
下表显示了 Tika 支持的文件格式。
文件格式 | 包库 | Tika 中的类 |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html 并且它使用 Tagsoup 库 | HtmlParser |
MS-Office 复合文档 Ole2(2007 年之前)ooxml(2007 年及以后) | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml 并且它使用 Apache Poi 库 |
OfficeParser(ole2) OOXMLParser (ooxml) |
OpenDocument 格式(OpenOffice) | org.apache.tika.parser.odf | OpenOfficeParser |
便携式文档格式(PDF) | org.apache.tika.parser.pdf 并且此包使用 Apache PdfBox 库 | PDFParser |
电子出版物格式(电子书) | org.apache.tika.parser.epub | EpubParser |
富文本格式 | org.apache.tika.parser.rtf | RTFParser |
压缩和打包格式 | org.apache.tika.parser.pkg 并且此包使用 Common 压缩库 | PackageParser 和 CompressorParser 及其子类 |
文本格式 | org.apache.tika.parser.txt | TXTParser |
Feed 和联合格式 | org.apache.tika.parser.feed | FeedParser |
音频格式 | org.apache.tika.parser.audio 和 org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- 用于 mp3parser |
图像解析器 | org.apache.tika.parser.jpeg | JpegParser-用于 jpeg 图像 |
视频格式 | org.apache.tika.parser.mp4 和 org.apache.tika.parser.video 此解析器内部使用简单算法来解析 Flash 视频格式 | Mp4parser FlvParser |
java 类文件和 jar 文件 | org.apache.tika.parser.asm | ClassParser CompressorParser |
Mobx 格式(电子邮件) | org.apache.tika.parser.mbox | MobXParser |
CAD 格式 | org.apache.tika.parser.dwg | DWGParser |
字体格式 | org.apache.tika.parser.font | TrueTypeParser |
可执行程序和库 | org.apache.tika.parser.executable | ExecutableParser |
广告