个性化阅读
专注于IT技术分析

Tika组件栈详细解释

本文概述

Tika由四个组成组件栈的组件组成。下图显示了组件的位置以及彼此之间的相互作用。

Tika组件栈

Tika-Core

它是基础组件, 在此基础上构建了其他三个软件包组件。它提供以下内容。

  1. Tika门面和可检测MIME类型的类。所有MIME类都组织在org.apache.tika.mime包中。
  2. 核心解析器接口。
  3. 语言标识符接口, 位于org.apache.tika.language包中。
  4. 核心元数据结构组织到org.apache.tika.metadata包中。
  5. 用于输出存储在org.apache.tika.sax包中的结构化文本的方法。

Tika-Parsers

它代表用于不同解析库的Tika包装器。它还提供了通用解析器接口的实现。 Tika-parser提供了所有必需的类和方法来解析文本和元数据。

Tika-App

它是一个提供Tika命令行和图形用户界面方面的应用程序。它是tika分析器的顶部。我们可以从命令行运行它, 它显示了一个可以拖动文件的窗口。它产生提取的内容和拖动文件的元数据。要使用它, 我们可以从tika的官方网站上安装它。这是一个jar文件, 因此我们可以使用java命令执行它。

Tika-Bundle

它是Tiks的四个组件之一, 用于提供开放服务网关倡议(OGSI)捆绑包。它有助于Tika包含在OGSI环境中。

OGSI是一种软件组件模型, 可帮助开发Java中基于组件的应用程序。它类似于Java Bean, 并支持模块化软件开发方法。

之所以创建tika-bundle软件包, 是因为最近的Tika部署需要包含完整的Tika栈(理想情况下为tika-app)。

赞(0) 打赏
未经允许不得转载:srcmini » Tika组件栈详细解释
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

微信扫一扫打赏