AIOPS 自然语义处理之TF-IDF代码实现(Python)

本文主要是介绍AIOPS 自然语义处理之TF-IDF代码实现(Python)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

关于理论讲TF-IDF可以查看上篇文章

要点讲解：

1、利用python第三方插件 jieba分词对输入的语句进行分析

2、利用python第三方插件 requests获取分词在中文文档中出现的文档数

3、利用python自带表中的Counter类对分词进行统计

4、测试语句：'查看一下亚马逊服务器硬盘'

代码见下：

# -*- coding: utf-8  -*-
import jieba
import math
import operator
import re
import requests
from collections import Counterclass SimilarityCalculator(object):def __init__(self):self.total_chinese_doc = 60000000000  # 假设所有的中文文档有60亿def cut_context(self, context):"""调用结巴分词进行切分:return:seg_list 包含分析的迭代器"""seg_list = jieba.cut(context, cut_all=False)return seg_listdef get_tf(self, context):"""计算每个词的词频term frequency 计算公式tf=count of word / total number of context:param context: 文本内容:return: 根据词频从高到底排列的OrderedDict字典， key为word, value为tf值"""word_tf_dict = {}# step 1: 针对语句进行分析， 此处利用结巴进行分析seg_list = self.cut_context(context)# step 2: 统计每隔分词的次数, 计算tffor word, count in Counter(seg_list).iteritems():word_tf_dict[word] = operator.div(float(count), len(context))return word_tf_dictdef get_idf(self, context):"""计算输入文本中每隔分词的逆文档频率 idf, 在此处假设中文总文档为D=65亿各个分词出现文档为:param context: 输入分文:return:"""word_idf_dict = {}seg_list = self.cut_context(context)for seg in seg_list:seg_doc_count = self.get_doc_count(seg)idf = math.log(operator.div(self.total_chinese_doc, operator.add(seg_doc_count, 1)), 10)print seg, seg_doc_count, idfword_idf_dict[seg] = idfreturn word_idf_dictdef get_df_idf_values(self, word_idf_dict, word_tf_dict):"""计算df_idf的值:param word_idf_dict: 逆文档频率数据:param word_tf_dict: 词频数据:return: df_idf的数据"""df_idf_value_dict = {}for word in word_idf_dict:df_idf_value_dict[word] = operator.mul(word_idf_dict.get(word), word_tf_dict.get(word))return df_idf_value_dictdef get_doc_count(self, word):"""通过百度上进行搜索，获取每个分词出现在的中文文档的个数:param word::return:"""doc_count = 0try:url = r'http://www.baidu.com/s?wd=' + wordres = requests.get(url)word_count_list = re.findall(ur'百度为您找到相关结果约(.*)个', res.text)if word_count_list:doc_count = re.sub(r'\D', '', word_count_list[0]).strip()except:doc_count = 0return int(doc_count)if __name__ == '__main__':similar_calculator = SimilarityCalculator()context = u'查看一下亚马逊服务器硬盘'word_idf_dict = similar_calculator.get_idf(context)word_tf_dict = similar_calculator.get_tf(context)idf_values = similar_calculator.get_df_idf_values(word_idf_dict, word_tf_dict)idf_values = sorted(idf_values.iteritems(), key=lambda x: x[1], reverse=True)for key, value in idf_values:print key, round(value, 2)

运行结果：

亚马逊 0.29
服务器 0.25
硬盘 0.25
一下 0.23
查看 0.23

具体过程数据：

分词	出现的文档数	IDF	TF	TF-IDF
查看	100000000	2.777427	0.083	0.23
一下	93900000	2.804821	0.083	0.23
亚马逊	18800000	3.503927	0.083	0.29
服务器	63000000	2.978637	0.083	0.25
硬盘	64500000	2.968483	0.083	0.25