个性化阅读
专注于IT技术分析

Tika文本文件提取示例

本文概述

为了提取文本文件, Tika提供了TXTParser类。此类用于从文本文件中提取内容和元数据。它位于org.apache.tika.parser.txt软件包中。

此类包含下表中列出的构造函数和方法。

Tika TextParser构造函数

Constructor Description
public TXTParser() 它用于创建类的实例。
公共TXTParser(EncodingDetector encodingDetector) 它使用编码检测器创建实例。

Tika TextParser方法

Method Description
公共Set <MediaType> getSupportedTypes(ParseContext上下文) 它返回此解析器支持的媒体类型集。
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException 它将文档流解析为一系列XHTML SAX事件。

Tika文本文件提取示例

在此示例中, 我们从文本文件中提取内容和元数据。请参见以下示例。

package tikaexample;

import java.io.InputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.txt.TXTParser;
import org.apache.tika.sax.BodyContentHandler;
public class TextFileExtraction {
	public static void main(String[] args) {
		 BodyContentHandler handler   = new BodyContentHandler();
		 TXTParser parser             = new TXTParser();
		 Metadata metadata            = new Metadata();
		 ParseContext pcontext        = new ParseContext();
		 try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("srcmini.txt")) {
		        parser.parse(stream, handler, metadata, pcontext);
	     System.out.println("Document Content:" + handler.toString());
	     System.out.println("Document Metadata:");
	     String[] metadatas = metadata.names(); 
	     for(String data : metadatas) {
	         System.out.println(data + ":   " + metadata.get(data));  
	     }
		 }catch(Exception e) {System.out.println(e);}
	}
}

//srcmini.txt

我们的文本文件内容。

欢迎使用srcmini。

srcmini是一个技术门户网站, 其中包含最新的计算机科学主题。

输出

Document Content:Welcome to the srcmini.

srcmini is a Technical portal that contains latest computer science topics.


Document Metadata:
Content-Encoding:   ISO-8859-1
Content-Type:   text/plain; charset=ISO-8859-1
赞(0) 打赏
未经允许不得转载:srcmini » Tika文本文件提取示例
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

微信扫一扫打赏