5G还未普及，4G套餐却被悄悄下架

发布时间：2021-02-06 19:10:10 所属栏目：评论来源：互联网

导读：还有更多这个列表并不全面，但涵盖了一些用例。应用既然我们已经讨论了预处理方法和Python库，让我们用几个例子把它们放在一起。对于每种算法，我将介绍几个NLP算法，根据我们的快速开发目标选择一个，并使用其中一个库创建一个简单的实现。应用1：预处

还有更多…

这个列表并不全面，但涵盖了一些用例。

应用

既然我们已经讨论了预处理方法和Python库，让我们用几个例子把它们放在一起。对于每种算法，我将介绍几个NLP算法，根据我们的快速开发目标选择一个，并使用其中一个库创建一个简单的实现。

应用1：预处理

预处理是任何NLP解决方案的关键部分，所以让我们看看如何使用Python库来加快处理速度。根据我的经验，NLTK拥有我们所需的所有工具，并针对独特的用例进行定制。让我们加载一个样本语料库：

们就可以使用SpaCy执行命名实体识别。使用SpaCy api可以快速完成许多其他任务。

GenSim

与NLTK和SpaCy不同，GenSim专门解决信息检索(IR)问题。GenSim的开发重点是内存管理，它包含许多文档相似性模型，包括Latent Semantic Indexing、Word2Vec和FastText。

Gensim是一个Python库，用于主题模型、文档索引和大型语料库的相似性检索。

下面是一个预先训练的GenSim Word2Vec模型的例子，它可以发现单词的相似性。不用担心那些杂乱无章的细节，我们可以很快得到结果。

有些NLP工具依赖于机器学习，有些甚至使用深度学习。然而，这些方法往往依赖于大数据集，并且难以实现。相反，我们将专注于更简单、基于规则的方法来加快开发周期。

术语

从最小的数据单位开始，字符是单个字母、数字或标点符号。一个单词是一个字符列表，一个句子是一个单词列表。文档是句子的列表，而语料库是文档的列表。

预处理

预处理可能是NLP项目中最重要的一步，它涉及到清理输入，这样模型就可以忽略噪声，并将注意力集中在最重要的内容上。一个强大的预处理管道将提高所有模型的性能，所以必须强调它的价值。

以下是一些常见的预处理步骤：

分段：给定一长串字符，我们可以用空格分隔文档，按句点分隔句子，按空格分隔单词。实现细节将因数据集而异。
使用小写：大写通常不会增加性能，并且会使字符串比较更加困难。所以把所有的东西都改成小写。
删除标点：我们可能需要删除逗号、引号和其他不增加意义的标点。
删除停用词：停用词是像“she”、“the”和“of”这样的词，它们不会增加文本的含义，并且分散对关键字的注意力。
删除其他不相关单词：根据你的应用程序，你可能希望删除某些不相关的单词。例如，如果评估课程回顾，像“教授”和“课程”这样的词可能没有用。
词干/词根化：词干分析和词根化都会生成词形变化单词的词根形式(例如：“running”到“run”)。词干提取速度更快，但不能保证词根是英语单词。词根化使用语料库来确保词根是一个单词，但代价是速度。
词性标注：词性标注以词性(名词、动词、介词)为依据，根据词义和语境来标记单词。例如，我们可以专注于名词进行关键字提取。

这些步骤是成功的预处理的基础。根据数据集和任务的不同，你可以跳过某些步骤或添加新步骤。通过预处理手动观察数据，并在出现问题时进行更正。

Python库

（编辑：甘孜站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!