个性化阅读
专注于IT技术分析

Python用NLTK提取单词示例

先决条件:词干简介

词干是产生词根/基词形态变异的过程。提取程序通常称为提取算法或提取程序。词干算法将单词”chocolates”, “chocolatey”, “choco”减少到词根词根, “chocolate”和”retrieval”, “retrieved”, “retrieves”减少到词干”retrieve”。

Some more example of stemming for root word "like" include:

-> "likes"
-> "liked"
-> "likely"
-> "liking"

提取错误:

词干分析主要有两个错误-过度提取和提取不足。当两个单词词根不同而词干相同时, 就会发生词干过度错误。当两个词的词根不相同但词干不同时, 就会发生词干不足。

词干的应用是:

  • 词干用于诸如搜索引擎之类的信息检索系统中。
  • 它用于确定领域分析中的领域词汇。

词干是可取的, 因为它可能会减少冗余, 因为在大多数情况下, 词干和它们的变形/衍生词表示相同的词。

以下是使用NLTK的词干实现:

代码1:

# import these modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
   
ps = PorterStemmer()
  
# choose some words to be stemmed
words = [ "program" , "programs" , "programer" , "programing" , "programers" ]
  
for w in words:
     print (w, " : " , ps.stem(w))

输出如下:

program  :  program
programs  :  program
programer  :  program
programing  :  program
programers  :  program

代码2:

句子中的词干

# importing modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
   
ps = PorterStemmer()
   
sentence = "Programers program with programing languages"
words = word_tokenize(sentence)
   
for w in words:
     print (w, " : " , ps.stem(w))

输出:

Programers  :  program
program  :  program
with  :  with
programing  :  program
languages  :  languag

首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。


赞(0) 打赏
未经允许不得转载:srcmini » Python用NLTK提取单词示例
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

微信扫一扫打赏