- TIKA 教程
- TIKA - 首页
- TIKA - 概述
- TIKA - 架构
- TIKA - 环境
- TIKA - 参考 API
- TIKA - 文件格式
- TIKA - 文档类型检测
- TIKA - 内容提取
- TIKA - 元数据提取
- TIKA - 语言检测
- TIKA - GUI
- TIKA 有用资源
- TIKA - 快速指南
- TIKA - 有用资源
- TIKA - 讨论
TIKA - 文件格式
Tika 支持的文件格式
下表显示了 Tika 支持的文件格式。
| 文件格式 | 包库 | Tika 中的类 |
|---|---|---|
| XML | org.apache.tika.parser.xml | XMLParser |
| HTML | org.apache.tika.parser.html 并且它使用 Tagsoup 库 | HtmlParser |
| MS-Office 复合文档 Ole2(2007 年之前)ooxml(2007 年及以后) | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml 并且它使用 Apache Poi 库 |
OfficeParser(ole2) OOXMLParser (ooxml) |
| OpenDocument 格式(OpenOffice) | org.apache.tika.parser.odf | OpenOfficeParser |
| 便携式文档格式(PDF) | org.apache.tika.parser.pdf 并且此包使用 Apache PdfBox 库 | PDFParser |
| 电子出版物格式(电子书) | org.apache.tika.parser.epub | EpubParser |
| 富文本格式 | org.apache.tika.parser.rtf | RTFParser |
| 压缩和打包格式 | org.apache.tika.parser.pkg 并且此包使用 Common 压缩库 | PackageParser 和 CompressorParser 及其子类 |
| 文本格式 | org.apache.tika.parser.txt | TXTParser |
| Feed 和联合格式 | org.apache.tika.parser.feed | FeedParser |
| 音频格式 | org.apache.tika.parser.audio 和 org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- 用于 mp3parser |
| 图像解析器 | org.apache.tika.parser.jpeg | JpegParser-用于 jpeg 图像 |
| 视频格式 | org.apache.tika.parser.mp4 和 org.apache.tika.parser.video 此解析器内部使用简单算法来解析 Flash 视频格式 | Mp4parser FlvParser |
| java 类文件和 jar 文件 | org.apache.tika.parser.asm | ClassParser CompressorParser |
| Mobx 格式(电子邮件) | org.apache.tika.parser.mbox | MobXParser |
| CAD 格式 | org.apache.tika.parser.dwg | DWGParser |
| 字体格式 | org.apache.tika.parser.font | TrueTypeParser |
| 可执行程序和库 | org.apache.tika.parser.executable | ExecutableParser |
广告