个性化阅读
专注于IT技术分析

Tika语言检测解释和示例

本文概述

Tika可以识别任何文档或文本的语言。从文档格式中提取文本时非常有用, 该文档格式的元数据中不包含语言信息。

Tika使用LanguageProfile和Language-Identifier类来匹配ISO 639语言代码。

Tika可以检测184种当前注册的ISO 639-1语言中的18种。

ISO 639是由国际标准化组织(ISO)定义的一组标准。

Tika能够检测多种语言, 包括英语, 德语, 意大利语等。请参见下表。

Code name Language
da Danish
de German
et Estonian
el Greek
en English
es Spanish
fi Finnish
fr French
hu Hungarian
is Icelandic
it Italian
nl Dutch
no Norwegian
pl Polish
pt Portuguese
ru Russian
sv Swedish
th Thai

Tika语言检测

下图显示了语言检测过程的关键组成部分。

Tika语言检测

org.apache.tika.language软件包包含检测文档或文本语言所需的所有必需类。让我们来看一个例子。

Tika语言检测示例

package tikaexample;

import org.apache.tika.language.LanguageIdentifier;

public class LanguageDetectionExample {
	public static void main(String[] args) {
		      LanguageIdentifier identifier = new LanguageIdentifier("Hello, this is srcmini.");
		      String language = identifier.getLanguage();
		      System.out.println("Language code is : " + language);
		   }
}

输出

Language code is : en
赞(0)
未经允许不得转载:srcmini » Tika语言检测解释和示例

评论 抢沙发

评论前必须登录!