个性化阅读
专注于IT技术分析

Apache Tika支持的格式详细介绍

本文概述

众所周知, Apache Tika支持上千种文档类型。在这里, 我们列出了一些常见的格式。这些只是介绍性的, 而Tika可以检测的范围比下面列出的范围要大得多。

Apache Tika可以从以下文档类型中检测, 提取内容和元数据。

  • 超文本标记语言
  • XML和派生格式
  • Microsoft Office文件格式
  • OpenDocument格式
  • iWorks文档格式
  • WordPerfect文档格式
  • 便携式文件格式
  • 电子出版物格式
  • 富文本格式
  • 压缩和包装格式
  • 文字格式
  • 资讯提供和联合发布格式
  • 等等

超文本标记语言

为了解析和提取HTML类型文档中的内容(元数据), Tika使用HtmlParser类负责提取HTML文件。

XML格式

它是一种可扩展的标记语言, 用于各种内容。 DcXMLParser类用于从文档中提取内容并忽略XML结构。

Microsoft Office文件格式

Microsoft Office以通用OLE 2复合文档和Office Open XML(OOXML)格式生成文档。 OfficeParser和OOXMLParser类使用Apache POI库来支持从OLE2和OOXML文档提取文本和元数据。

OpenDocument格式

它主要用作OpenOffice.org办公套件的默认格式。 OpenDocumentParser类支持此格式。

iWorks文档格式

IWorkPackageParser类支持各种iWorks文档格式(数字, 页面, 主题演讲), 该类提取文本和元数据。

便携式文件格式

PDFParser类用于使用Apache PDFBox库解析可移植文档格式(PDF)文档。

电子出版物格式

EpubParser类支持电子出版物格式, 该类用于许多数字书籍。 FictionBookParser类支持基于Xml的小说。

富文本格式

RTFParser类使用标准的javax.swing.text.rtf功能从富文本格式(RTF)文档中提取文本内容。

压缩和包装格式

Tika使用Commons Compress库来支持各种压缩和打包格式。 CompressorParser类处理顶级压缩格式的解​​析, 然后PackageParser类及其子类解析打包格式, 然后使用解析上下文中指定的解析器实例将解压缩的文档流传递到第二个解析阶段。支持的格式包括Tar, AR, ARJ, CPIO, Dump, Zip, 7Zip, Gzip, BZip2, XZ, LZMA, Z和Pack200。

文字格式

从纯文本文件中提取文本内容似乎是一个简单的任务, 直到我们开始考虑所有可能的字符编码。 TXTParser类使用ICU项目中的编码检测代码来自动检测文本文档的字符编码。

资讯提供和联合发布格式

FeedParser类支持RSS和Atom联合供稿格式。

赞(0) 打赏
未经允许不得转载:srcmini » Apache Tika支持的格式详细介绍
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

微信扫一扫打赏