个性化阅读
专注于IT技术分析

Tika将文档解析为XHTML示例

点击下载

本文概述

Tika使用ToXMLContentHandler类来获取XHTML格式的输出。它以字符串形式返回整个文档的XHTML内容。

此类包含以下构造函数和方法。

Tika ToXMLContentHandler构造函数

以下是ToXMLContentHandler类的构造函数。

Constructor Description
public ToXMLContentHandler() 它用于创建类的实例。
公共ToXMLContentHandler(字符串编码) 它通过获取字符串参数来创建实例。

Tika ToXMLContentHandler方法

以下是ToXMLContentHandler类的方法。

Methods Description
公共无效字符(char [] ch, int开头, int长度)抛出SAXException 它将给定的字符写入给定的字符流。
受保护的void write(char ch)抛出SAXException 它按原样写入给定字符。
受保护的void write(String string)抛出SAXException 它按原样写入给定的字符串。
公共无效startDocument()引发SAXException 它写入XML前缀。

Tika将文档解析为XHTML示例

此示例以XHTML格式生成输出, 而输入为文本格式。

package tikaexample;

import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.ToXMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
public class XhtmlParseExample {
	public static void main(String[] args) throws IOException, SAXException, TikaException {
	    ContentHandler handler = new ToXMLContentHandler();
		 
	    AutoDetectParser pa0rser = new AutoDetectParser();
	    Metadata metadata = new Metadata(); 
	    try (InputStream stream = XhtmlParseExample.class.getResourceAsStream("Hello.txt")) {
	        parser.parse(stream, handler, metadata);
	        System.out.println(handler.toString());
	    }
	}
}

输出

以下是hello.txt文件的内容。

Hello Welcome to srcmini

提取后, 它将产生XHTML格式的输出。见下文。

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.DefaultParser" />
<meta name="X-Parsed-By" content="org.apache.tika.parser.txt.TXTParser" />
<meta name="Content-Encoding" content="ISO-8859-1" />
<meta name="Content-Type" content="text/plain; charset=ISO-8859-1" />
<title></title>
</head>
<body><p>Hello Welcome to srcmini</p>
</body></html>
赞(0)
未经允许不得转载:srcmini » Tika将文档解析为XHTML示例

评论 抢沙发

评论前必须登录!