个性化阅读
专注于IT技术分析

Tika将文档解析为纯文本示例

Tika允许我们获取各种格式的提取内容, 例如文本, html或xhtml等。ContentHandler类负责返回内容。如果要以纯文本形式获取文档正文的内容, 也可以使用BodyContentHandler。

让我们看一个示例, 其中我们从html文件获取纯文本输出。

Tika解析为纯文本示例

package tikaexample;

import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class AutoDetectParseExample {
	public static void main(String[] args) throws IOException, SAXException, TikaException {
		BodyContentHandler handler = new BodyContentHandler();
	    AutoDetectParser parser = new AutoDetectParser();
	    Metadata metadata = new Metadata();
	    try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {
	        parser.parse(stream, handler, metadata);
	        System.out.println(handler.toString());
	    }
	}
}

输出

以下是我们的html文件。

//索引。 html

<html>
<head>
<title>Index Page</title>
</head>
<body>
<h2>Hello, Welcome to srcmini. </h2>
</body>
</html>

提取后, 它将以纯文本格式输出。

Hello, Welcome to srcmini.
赞(0) 打赏
未经允许不得转载:srcmini » Tika将文档解析为纯文本示例
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

微信扫一扫打赏