个性化阅读
专注于IT技术分析

Tika简要简介

本文概述

Tika是一种内容分析工具, 由Apache Software Foundation设计和开发。它是用Java编写的, 用于检测和提取文件中的内容和元数据。

它支持数千种文件类型, 包括.XML, XLS, PDF等。

它是跨平台的, 其存储库可在github上获取以供公众访问。

历史

在2007年, Apache启动了一个项目, 以开发一种可以从任何类型的文件中提取内容的工具。其主要目的是使其在CMS(内容管理系统)和Web搜寻器中更加可用。并在2011年发布了第一个正式版本1.0。

Tika的当前稳定版本是2017年12月13日发布的1.17。

人气度

Tika(Tika)被全世界使用, 顶级巨头也将其用于信息检索。有最知名的使用Tika的公司。

  • FICO(公平伊萨克公司)
  • 高盛
  • 美国宇航局
  • Drupal(软件)
  • Alfresco(软件)

《福布斯》杂志发表了一份有关Tika的关键作用的报告, 该报告被400名记者用来提取1150万份文档以获取信息。

赞(0)
未经允许不得转载:srcmini » Tika简要简介

评论 抢沙发

评论前必须登录!