加入收藏 | 设为首页 | 会员中心 | 我要投稿 甘孜站长网 (https://www.0836zz.com.cn/)- 运维、物联设备、数据计算、智能推荐、云管理!
当前位置: 首页 > 站长资讯 > 评论 > 正文

5G还未普及,4G套餐却被悄悄下架

发布时间:2021-02-06 19:10:10 所属栏目:评论 来源:互联网
导读:还有更多 这个列表并不全面,但涵盖了一些用例。 应用 既然我们已经讨论了预处理方法和Python库,让我们用几个例子把它们放在一起。对于每种算法,我将介绍几个NLP算法,根据我们的快速开发目标选择一个,并使用其中一个库创建一个简单的实现。 应用1:预处

还有更多…

这个列表并不全面,但涵盖了一些用例。

应用

既然我们已经讨论了预处理方法和Python库,让我们用几个例子把它们放在一起。对于每种算法,我将介绍几个NLP算法,根据我们的快速开发目标选择一个,并使用其中一个库创建一个简单的实现。

应用1:预处理

预处理是任何NLP解决方案的关键部分,所以让我们看看如何使用Python库来加快处理速度。根据我的经验,NLTK拥有我们所需的所有工具,并针对独特的用例进行定制。让我们加载一个样本语料库:
 

们就可以使用SpaCy执行命名实体识别。使用SpaCy api可以快速完成许多其他任务。

GenSim

与NLTK和SpaCy不同,GenSim专门解决信息检索(IR)问题。GenSim的开发重点是内存管理,它包含许多文档相似性模型,包括Latent Semantic Indexing、Word2Vec和FastText。

Gensim是一个Python库,用于主题模型、文档索引和大型语料库的相似性检索。

下面是一个预先训练的GenSim Word2Vec模型的例子,它可以发现单词的相似性。不用担心那些杂乱无章的细节,我们可以很快得到结果。
 

有些NLP工具依赖于机器学习,有些甚至使用深度学习。然而,这些方法往往依赖于大数据集,并且难以实现。相反,我们将专注于更简单、基于规则的方法来加快开发周期。

术语

从最小的数据单位开始,字符是单个字母、数字或标点符号。一个单词是一个字符列表,一个句子是一个单词列表。文档是句子的列表,而语料库是文档的列表。

预处理

预处理可能是NLP项目中最重要的一步,它涉及到清理输入,这样模型就可以忽略噪声,并将注意力集中在最重要的内容上。一个强大的预处理管道将提高所有模型的性能,所以必须强调它的价值。

以下是一些常见的预处理步骤:

  • 分段:给定一长串字符,我们可以用空格分隔文档,按句点分隔句子,按空格分隔单词。实现细节将因数据集而异。
  • 使用小写:大写通常不会增加性能,并且会使字符串比较更加困难。所以把所有的东西都改成小写。
  • 删除标点:我们可能需要删除逗号、引号和其他不增加意义的标点。
  • 删除停用词:停用词是像“she”、“the”和“of”这样的词,它们不会增加文本的含义,并且分散对关键字的注意力。
  • 删除其他不相关单词:根据你的应用程序,你可能希望删除某些不相关的单词。例如,如果评估课程回顾,像“教授”和“课程”这样的词可能没有用。
  • 词干/词根化:词干分析和词根化都会生成词形变化单词的词根形式(例如:“running”到“run”)。词干提取速度更快,但不能保证词根是英语单词。词根化使用语料库来确保词根是一个单词,但代价是速度。
  • 词性标注:词性标注以词性(名词、动词、介词)为依据,根据词义和语境来标记单词。例如,我们可以专注于名词进行关键字提取。

这些步骤是成功的预处理的基础。根据数据集和任务的不同,你可以跳过某些步骤或添加新步骤。通过预处理手动观察数据,并在出现问题时进行更正。

Python库

(编辑:甘孜站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读