Python用NLTK提取单词示例

先决条件：词干简介

词干是产生词根/基词形态变异的过程。提取程序通常称为提取算法或提取程序。词干算法将单词”chocolates”, “chocolatey”, “choco”减少到词根词根, “chocolate”和”retrieval”, “retrieved”, “retrieves”减少到词干”retrieve”。

Some more example of stemming for root word "like" include:

-> "likes"
-> "liked"
-> "likely"
-> "liking"

提取错误：

词干分析主要有两个错误-过度提取和提取不足。当两个单词词根不同而词干相同时, 就会发生词干过度错误。当两个词的词根不相同但词干不同时, 就会发生词干不足。

词干的应用是：

词干用于诸如搜索引擎之类的信息检索系统中。
它用于确定领域分析中的领域词汇。

词干是可取的, 因为它可能会减少冗余, 因为在大多数情况下, 词干和它们的变形/衍生词表示相同的词。

以下是使用NLTK的词干实现：

代码1：

# import these modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
   
ps = PorterStemmer()
  
# choose some words to be stemmed
words = [ "program" , "programs" , "programer" , "programing" , "programers" ]
  
for w in words:
     print (w, " : " , ps.stem(w))

输出如下：

program  :  program
programs  :  program
programer  :  program
programing  :  program
programers  :  program

代码2：

句子中的词干

# importing modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
   
ps = PorterStemmer()
   
sentence = "Programers program with programing languages"
words = word_tokenize(sentence)
   
for w in words:
     print (w, " : " , ps.stem(w))

输出：

Programers  :  program
program  :  program
with  :  with
programing  :  program
languages  :  languag

相关推荐

评论抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

相关推荐

评论 抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

评论抢沙发