AIOPS 自然语义处理之TF-IDF代码实现(Python)

2024-03-02 20:08

本文主要是介绍AIOPS 自然语义处理之TF-IDF代码实现(Python),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于理论讲TF-IDF可以查看上篇文章

要点讲解:

1、利用python第三方插件 jieba分词对输入的语句进行分析

2、利用python第三方插件 requests获取分词在中文文档中出现的文档数

3、利用python自带表中的Counter类对分词进行统计

4、测试语句:'查看一下亚马逊服务器硬盘'

代码见下:

# -*- coding: utf-8  -*-
import jieba
import math
import operator
import re
import requests
from collections import Counterclass SimilarityCalculator(object):def __init__(self):self.total_chinese_doc = 60000000000  # 假设所有的中文文档有60亿def cut_context(self, context):"""调用结巴分词进行切分:return:seg_list 包含分析的迭代器"""seg_list = jieba.cut(context, cut_all=False)return seg_listdef get_tf(self, context):"""计算每个词的词频term frequency 计算公式tf=count of word / total number of context:param context: 文本内容:return: 根据词频从高到底排列的OrderedDict字典, key为word, value为tf值"""word_tf_dict = {}# step 1: 针对语句进行分析, 此处利用结巴进行分析seg_list = self.cut_context(context)# step 2: 统计每隔分词的次数, 计算tffor word, count in Counter(seg_list).iteritems():word_tf_dict[word] = operator.div(float(count), len(context))return word_tf_dictdef get_idf(self, context):"""计算输入文本中每隔分词的逆文档频率 idf, 在此处假设中文总文档为D=65亿各个分词出现文档为:param context: 输入分文:return:"""word_idf_dict = {}seg_list = self.cut_context(context)for seg in seg_list:seg_doc_count = self.get_doc_count(seg)idf = math.log(operator.div(self.total_chinese_doc, operator.add(seg_doc_count, 1)), 10)print seg, seg_doc_count, idfword_idf_dict[seg] = idfreturn word_idf_dictdef get_df_idf_values(self, word_idf_dict, word_tf_dict):"""计算df_idf的值:param word_idf_dict: 逆文档频率数据:param word_tf_dict: 词频数据:return: df_idf的数据"""df_idf_value_dict = {}for word in word_idf_dict:df_idf_value_dict[word] = operator.mul(word_idf_dict.get(word), word_tf_dict.get(word))return df_idf_value_dictdef get_doc_count(self, word):"""通过百度上进行搜索,获取每个分词出现在的中文文档的个数:param word::return:"""doc_count = 0try:url = r'http://www.baidu.com/s?wd=' + wordres = requests.get(url)word_count_list = re.findall(ur'百度为您找到相关结果约(.*)个', res.text)if word_count_list:doc_count = re.sub(r'\D', '', word_count_list[0]).strip()except:doc_count = 0return int(doc_count)if __name__ == '__main__':similar_calculator = SimilarityCalculator()context = u'查看一下亚马逊服务器硬盘'word_idf_dict = similar_calculator.get_idf(context)word_tf_dict = similar_calculator.get_tf(context)idf_values = similar_calculator.get_df_idf_values(word_idf_dict, word_tf_dict)idf_values = sorted(idf_values.iteritems(), key=lambda x: x[1], reverse=True)for key, value in idf_values:print key, round(value, 2)

运行结果:

亚马逊 0.29
服务器 0.25
硬盘 0.25
一下 0.23
查看 0.23

具体过程数据:

分词出现的文档数IDFTFTF-IDF
查看1000000002.7774270.0830.23
一下939000002.8048210.0830.23
亚马逊188000003.5039270.0830.29
服务器630000002.9786370.0830.25
硬盘645000002.9684830.0830.25

这篇关于AIOPS 自然语义处理之TF-IDF代码实现(Python)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/767277

相关文章

QT Creator配置Kit的实现示例

《QTCreator配置Kit的实现示例》本文主要介绍了使用Qt5.12.12与VS2022时,因MSVC编译器版本不匹配及WindowsSDK缺失导致配置错误的问题解决,感兴趣的可以了解一下... 目录0、背景:qt5.12.12+vs2022一、症状:二、原因:(可以跳过,直奔后面的解决方法)三、解决方

MySQL中On duplicate key update的实现示例

《MySQL中Onduplicatekeyupdate的实现示例》ONDUPLICATEKEYUPDATE是一种MySQL的语法,它在插入新数据时,如果遇到唯一键冲突,则会执行更新操作,而不是抛... 目录1/ ON DUPLICATE KEY UPDATE的简介2/ ON DUPLICATE KEY UP

Python中Json和其他类型相互转换的实现示例

《Python中Json和其他类型相互转换的实现示例》本文介绍了在Python中使用json模块实现json数据与dict、object之间的高效转换,包括loads(),load(),dumps()... 项目中经常会用到json格式转为object对象、dict字典格式等。在此做个记录,方便后续用到该方

JWT + 拦截器实现无状态登录系统

《JWT+拦截器实现无状态登录系统》JWT(JSONWebToken)提供了一种无状态的解决方案:用户登录后,服务器返回一个Token,后续请求携带该Token即可完成身份验证,无需服务器存储会话... 目录✅ 引言 一、JWT 是什么? 二、技术选型 三、项目结构 四、核心代码实现4.1 添加依赖(pom

SpringBoot路径映射配置的实现步骤

《SpringBoot路径映射配置的实现步骤》本文介绍了如何在SpringBoot项目中配置路径映射,使得除static目录外的资源可被访问,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一... 目录SpringBoot路径映射补:springboot 配置虚拟路径映射 @RequestMapp

从基础到高级详解Python数值格式化输出的完全指南

《从基础到高级详解Python数值格式化输出的完全指南》在数据分析、金融计算和科学报告领域,数值格式化是提升可读性和专业性的关键技术,本文将深入解析Python中数值格式化输出的相关方法,感兴趣的小伙... 目录引言:数值格式化的核心价值一、基础格式化方法1.1 三种核心格式化方式对比1.2 基础格式化示例

Python与MySQL实现数据库实时同步的详细步骤

《Python与MySQL实现数据库实时同步的详细步骤》在日常开发中,数据同步是一项常见的需求,本篇文章将使用Python和MySQL来实现数据库实时同步,我们将围绕数据变更捕获、数据处理和数据写入这... 目录前言摘要概述:数据同步方案1. 基本思路2. mysql Binlog 简介实现步骤与代码示例1

Redis实现高效内存管理的示例代码

《Redis实现高效内存管理的示例代码》Redis内存管理是其核心功能之一,为了高效地利用内存,Redis采用了多种技术和策略,如优化的数据结构、内存分配策略、内存回收、数据压缩等,下面就来详细的介绍... 目录1. 内存分配策略jemalloc 的使用2. 数据压缩和编码ziplist示例代码3. 优化的

Python ORM神器之SQLAlchemy基本使用完全指南

《PythonORM神器之SQLAlchemy基本使用完全指南》SQLAlchemy是Python主流ORM框架,通过对象化方式简化数据库操作,支持多数据库,提供引擎、会话、模型等核心组件,实现事务... 目录一、什么是SQLAlchemy?二、安装SQLAlchemy三、核心概念1. Engine(引擎)

Ubuntu如何升级Python版本

《Ubuntu如何升级Python版本》Ubuntu22.04Docker中,安装Python3.11后,使用update-alternatives设置为默认版本,最后用python3-V验证... 目China编程录问题描述前提环境解决方法总结问题描述Ubuntu22.04系统自带python3.10,想升级