个性化阅读
专注于IT技术分析

Tika Facade介绍和示例

本文概述

在Tika中, 可以使用Tika Facade或使用自动检测解析器来完成文档解析。两者都用于在没有特定解析器的情况下解析文档。

Apache Tika提供用于访问Tika功能的Facade类。此类提供了实现解析和检测操作的方法。

它位于org.apache.tika.Tika包中。它包含下面给出的各种构造函数和方法。

构造器在那里

以下是Tika Facade类的构造函数。

Constructor Description
Tika() 它用于使用默认配置创建Tika门面。
Tika(Detector detector) 它用于使用给定的检测器实例创建Tika门面。
Tika(检测器检测器, 解析器解析器) 它用于使用给定的检测器和解析器实例创建Tika门面。
Tika(检测器检测器, 解析器解析器, 翻译器翻译器) 它用于使用给定的检测器, 解析器和翻译器实例创建Tika门面。
Tika(TikaConfig配置) 使用给定的配置来创建Tika门面。

真实方法

以下是Tika Facade类的方法。

Method Description
公共字符串detect(字节[]前缀) 它检测给定文档的介质类型。
公共字符串侦听(路径路径)抛出IOException 它在给定路径下检测文件的媒体类型。
公共字符串检测(文件文件)抛出IOException 它检测给定文件的媒体类型。
公共字符串detect(URL url)抛出IOException 它检测给定URL处资源的媒体类型。
public String detect(字符串名称) 它检测具有给定文件名的文档的媒体类型。
公共字符串翻译(字符串文本, 字符串sourceLanguage, 字符串targetLanguage) 它将给定的文本String与给定的语言进行翻译。
公共字符串翻译(字符串文本, 字符串targetLanguage) 它将给定的文本String转换为给定的语言。
公共Reader解析(InputStream流, 元数据元数据)引发IOException 它解析给定的文档并返回提取的文本内容。
公共Reader解析(InputStream流)抛出IOException 它解析给定的文档并返回提取的文本内容。
公共Reader解析(路径路径, 元数据元数据)抛出IOException 它解析给定路径下的文件并返回提取的文本内容。
公共字符串parseToString(InputStream流, 元数据元数据)引发IOException, TikaException 它解析给定的文档并返回提取的文本内容。
公共诠释getMaxStringLength() 返回由parseToString方法返回的字符串的最大长度。

例子例子

我们正在使用Tika Facade从文本文件中提取内容。

package tikaexample;

import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
public class TextParse {
	public static void main(String[] args) throws IOException, TikaException {
		System.out.println(parse());
	}
	public static String parse() throws IOException, TikaException {
		// parsing using Tika facade
		Tika tika = new Tika(); 
		try(InputStream is = TextParse.class.getResourceAsStream("hello.txt")){
			return tika.parseToString(is);
		}
	}
}

输出

以下是hello.txt文件的内容。

Hello, Welcome to srcmini
赞(0) 打赏
未经允许不得转载:srcmini » Tika Facade介绍和示例
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

微信扫一扫打赏