初识人工智能---------自然语言处理词袋模型

本文主要是介绍初识人工智能---------自然语言处理词袋模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.自然语言处理（NLP）

自然语言处理（Natural Language Processing，简称NLP）研究的是如何通过机器学习等技术，让计算机学会处理自然（人类）语言，以完成有意义的任务。

下面是一些常见的日常生活应用：

1. 邮件过滤：

系统会根据电子邮件的内容识别电子邮件是否属于三个类别（重要、社交或广告）之一，或者判断一封邮件是否是垃圾邮件。此时就是通过NLP来对这些邮件进行一系列的分类。

2. 搜索引擎，如百度、谷歌等。

在我们输入2-3个字后，搜索引擎会显示可能的搜索词。或者如果输入了错别字，搜索引擎会自动进行更正。

这就是通过NLP技术来实现的搜索自动完成和自动更正功能，帮助我们更有效地找到准确的结果；

3. 机器翻译，比如Google、有道翻译。

目前所追求的翻译，不再仅仅是通过计算机直接将一种语言转换为另一种语言，而是需要像人类一样能够理解世界知识和上下文。

要让电脑像人类一样理解自然语言，必然离不开NLP技术。

4. 语音助理，比如Siri、智能音箱等。

现在的语音助理，与人类之间的交流不再是简单的你问我答，不少语音助手甚至能和人类进行深度交谈。

同样在这背后离不开NLP技术，使得语音助理能够将人类语言转换为机器语言，然后执行相应的操作。

总结一下，广义上来讲任何处理自然语言的计算机操作都可以被理解为NLP。

2.中文分词

一篇文本是由无数句话组成，而一句话又是由一个个词语组成，因此可以将词语看作是自然语言的基本单位。

对于英文而言，间隔很明显能够判断那个是单个的，但是一句中文的句子应该如何进行判断呢，这个就是分词；现在有技术把中文的词语分隔开，实现分词的目的；

3.词袋模型

对于文本而言，词语出现的频率就可以作为一项特征。那么，词频这个特征就能帮我们提取出关键词。

在进行NLP时，构造词袋模型（Bag-of-Words Model）是一种常用的用于统计词频的技术。

将复杂的词句结构降维成体现主题的词语计数，以便计算机进行后续的处理。

这就是词袋模型的基本思想。

4.读取CSV文件

（1）简介

CSV（Comma-Separated Values）文件以纯文本的形式储存数字、文本等表格数据。

Python提供了一个用于处理CSV文件的模块：csv 模块。由于是内置的模块，直接导入就可以了；

(2)文件的读取

# 导入csv模块
import csv# 使用open()函数打开数据集，并将返回的文件对象存储在变量file中
file = open("/Users/xxxxxxxxxxx", "r")# 使用csv.reader()函数读取数据集，并赋值给变量reader
reader = csv.reader(file)

导入模块---------------打开文件，r表示的是以只读的方式打开文件----------------通过函数读取数据，赋值reader；

5.标准化处理

for info in reader:print(info)

reader对象存储的是CSV文件里所有行数据，相当于每一行数据都作为字符串列表返回。

也就是说reader的每个元素都是字符串列表：为了便于管理，我们把它进行标准化的处理；

1. 先创建一个空列表，用于存储reader对象中的值
2. 使用for循环遍历reader对象
3. 使用append()函数，将reader对象中的每行数据添加到空列表data中

// 创建一个空列表data
data = []// 使用for循环遍历reader，将遍历的数据存储到变量info中
for info in reader:// 使用append()函数，将info逐一添加到data列表中data.append(info)// 输出data
print(data)

这样，data这个列表里面就全是小的列表，data就是一个嵌套列表。

这篇关于初识人工智能---------自然语言处理词袋模型的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！