Apache Tika支持的格式详细介绍

本文概述

超文本标记语言
XML格式
Microsoft Office文件格式
OpenDocument格式
iWorks文档格式
便携式文件格式
电子出版物格式
富文本格式
压缩和包装格式
文字格式
资讯提供和联合发布格式

众所周知, Apache Tika支持上千种文档类型。在这里, 我们列出了一些常见的格式。这些只是介绍性的, 而Tika可以检测的范围比下面列出的范围要大得多。

Apache Tika可以从以下文档类型中检测, 提取内容和元数据。

超文本标记语言
XML和派生格式
Microsoft Office文件格式
OpenDocument格式
iWorks文档格式
WordPerfect文档格式
便携式文件格式
电子出版物格式
富文本格式
压缩和包装格式
文字格式
资讯提供和联合发布格式
等等

超文本标记语言

为了解析和提取HTML类型文档中的内容(元数据), Tika使用HtmlParser类负责提取HTML文件。

XML格式

它是一种可扩展的标记语言, 用于各种内容。 DcXMLParser类用于从文档中提取内容并忽略XML结构。

Microsoft Office文件格式

Microsoft Office以通用OLE 2复合文档和Office Open XML(OOXML)格式生成文档。 OfficeParser和OOXMLParser类使用Apache POI库来支持从OLE2和OOXML文档提取文本和元数据。

OpenDocument格式

它主要用作OpenOffice.org办公套件的默认格式。 OpenDocumentParser类支持此格式。

iWorks文档格式

IWorkPackageParser类支持各种iWorks文档格式(数字, 页面, 主题演讲), 该类提取文本和元数据。

便携式文件格式

PDFParser类用于使用Apache PDFBox库解析可移植文档格式(PDF)文档。

电子出版物格式

EpubParser类支持电子出版物格式, 该类用于许多数字书籍。 FictionBookParser类支持基于Xml的小说。

富文本格式

RTFParser类使用标准的javax.swing.text.rtf功能从富文本格式(RTF)文档中提取文本内容。

压缩和包装格式

Tika使用Commons Compress库来支持各种压缩和打包格式。 CompressorParser类处理顶级压缩格式的解析, 然后PackageParser类及其子类解析打包格式, 然后使用解析上下文中指定的解析器实例将解压缩的文档流传递到第二个解析阶段。支持的格式包括Tar, AR, ARJ, CPIO, Dump, Zip, 7Zip, Gzip, BZip2, XZ, LZMA, Z和Pack200。

文字格式

从纯文本文件中提取文本内容似乎是一个简单的任务, 直到我们开始考虑所有可能的字符编码。 TXTParser类使用ICU项目中的编码检测代码来自动检测文本文档的字符编码。

资讯提供和联合发布格式

FeedParser类支持RSS和Atom联合供稿格式。

本文概述

超文本标记语言

XML格式

Microsoft Office文件格式

OpenDocument格式

iWorks文档格式

便携式文件格式

电子出版物格式

富文本格式

压缩和包装格式

文字格式

资讯提供和联合发布格式

相关推荐

评论抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

本文概述

超文本标记语言

XML格式

Microsoft Office文件格式

OpenDocument格式

iWorks文档格式

便携式文件格式

电子出版物格式

富文本格式

压缩和包装格式

文字格式

资讯提供和联合发布格式

相关推荐

评论 抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

评论抢沙发