喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

2023-10-31 10:40

文章标签 python 我用指南喜欢鉴茶成功人士喝茶

本文主要是介绍喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

投一把青叶，感叹岁月如梦犹在，注一汪清泉，寻味浮生千姿百态。

说一下为啥我突然想到写Python来鉴茶这种小案例吧！因为今天领导把我喊到办公室，一起喝了两杯茶，但是我又不是那种喜欢喝茶的，对茶也没有研究过！所以今天特意来出一个教程，也是能教大家学Python也能防止没有这方面的知识点，至少一些喝茶最常见的礼仪得自己清楚，不至于在以后出丑嘛！

Start

阅读本文及源码，可以和小编一起学到 xpath 表达式爬取数据，多进程爬取，pandas 基本操作，pyecharts 可视化，stylecloud 词云，文本余弦相似度相似度，KMeans，关键词提取算法：TextRank，TF-IDF，LDA 主题模型。

源码获取在文末

小编找到一个和茶有关网站：

https://chaping.chayu.com/?bid=1

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

数据获取

从首页进入茶评，可以看到所有茶的基本信息，结果有多页，获取所有的基本信息包括标题，评分，品牌，产地，茶类，详细链接，id：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

再根据获得的链接，下钻爬取每一种茶的推荐指数，总评，所有排行：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

及爬取对应的评论，有多页就爬取多页，包含字段评论人，评论人等级，评分，评论，评论时间：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

最后保存为 tea.csv,comment.csv 两个 csv：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

整个爬虫流程就这样，使用了 xpath 提取，多进程爬取，逻辑不算复杂，详细实现逻辑可查看源码。

数据分析

总共获得 3w 条数据，获得数据后就可以开始进行探索了。

先对标题进行查看，标题是由品牌及名称构成，处理为只保留名称部分，绘制词云。

红茶，白杜丹，铁观音，绿茶，毛尖等一些听到过的茶名称还是比较多的：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

茶评分取值为 0-10，对评分每两分进行切分后绘制直方图。

从结果上看，评分都挺高的，只有个别评分是低于 4 分的，小编选出数据看了看，总评价对这些低分的茶评价不是特别友好：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

现在基本上每种茶都有专门的品牌在售卖，对品牌进行统计，绘制词语。

发现斗记茶业，中茶，大益，天福茗茶等较为突出，这些品牌就算不了解茶，但多多少少也听到过在大街上看到过：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

每种茶都有它独特的产地，对产地绘制热力地图。

发现产地来自云南的是最多的，多达上千种，小编查了查，云南茶叶最重要的原产地，云南是茶叶最为古老的故乡。

其次是福建，有着一千多年的茶文化历史，是最中国产茶的重要产地：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

目前茶类可分为普洱，绿茶，红茶，乌龙，黑茶，白茶，花茶，黄茶，袋泡，速溶茶十大类，每个大类别有细分很多小类，对每个大类进行统计绘制柱状图。

发现普洱茶是类别最多的，其次是绿茶，红茶，看到这里小编想到自己都很少喝普洱茶：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

热搜能从侧面反映一种茶受不受欢迎，小编选出热搜排名前 10 的茶，拉出明细。

发现排名第一的是经典普洱，普洱也是种类最多的茶，以后可以特地买一点试试：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

对评论时间以时间年月为维度，同比每一年每一月的评论走势图。

发现评论用户 14-17 年活跃程度是一直攀升，之后下跌了：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

到这里，探索性分析就完成了，主要用到了，pandas，stylecloud，jieba，pyecharts 这些技术，详细实现过程可参考源码。

关键词提取

在获得的数据中，有总评字段，即对每一种茶的评语，有每一个用户评论的字段，利用这两个字段来实现文本关键词提取。

对于总评，我们想把总评相似的茶分到一起，可以使用 KMeans 聚类算法，但总评是文本数据。

需要先提取每条总评中的关键词，使用了 TextRank 算法提取关键词，原理是基于句子进行分词，对每个词进行权重打分，获得分数高的作为关键词。

对关键词向量化，再计算余弦相似度，最后使用聚类算法，分为了两种种类。

种类一主要是从品尝方向进行评价的，香气，滋味，入口，顺滑等。

种类二主要是从外表方向进行评价的，外形，条索，色泽，原料等：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

对评论先使用了 TF-IDF 算法进行关键词的提取，是有 TF，IDF 两部分算法组成。

TF，计算每一个词在所有文本中出现的频率。

IDF，计算每一个词在所有评论中，在多少条评论中出现的次数，映射一个分值。

最后 TF*IDF 选出分值前 10 的关键词：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

第二种方法是利用主题模型 LDA 进行关键词提取，需要先确定主题数，再提取关键词，这里就选取 1 个主题，及前 10 关键词：

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南

源码获取

需要源码点这里即可获取

这篇关于喜欢喝茶的都是成功人士吗？我用Python来做一个鉴茶指南的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/314773。 23002807@qq.com

相关文章

Python按照24个实用大方向精选的上千种工具库汇总整理

Python按照24个实用大方向精选的上千种工具库汇总整理

《Python按照24个实用大方向精选的上千种工具库汇总整理》本文整理了Python生态中近千个库,涵盖数据处理、图像处理、网络开发、Web框架、人工智能、科学计算、GUI工具、测试框架、环境管理等多... 目录1、数据处理文本处理特殊文本处理html/XML 解析文件处理配置文件处理文档相关日志管理日期和

阅读更多...

Python标准库datetime模块日期和时间数据类型解读

Python标准库datetime模块日期和时间数据类型解读

《Python标准库datetime模块日期和时间数据类型解读》文章介绍Python中datetime模块的date、time、datetime类,用于处理日期、时间及日期时间结合体,通过属性获取时间... 目录Datetime常用类日期date类型使用时间 time 类型使用日期和时间的结合体–日期时间(

阅读更多...

使用Python开发一个Ditto剪贴板数据导出工具

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

阅读更多...

Python yield与yield from的简单使用方式

Python yield与yield from的简单使用方式

《Pythonyield与yieldfrom的简单使用方式》生成器通过yield定义,可在处理I/O时暂停执行并返回部分结果,待其他任务完成后继续,yieldfrom用于将一个生成器的值传递给另一... 目录python yield与yield from的使用代码结构总结Python yield与yield

阅读更多...

python使用Akshare与Streamlit实现股票估值分析教程（图文代码）

python使用Akshare与Streamlit实现股票估值分析教程（图文代码）

《python使用Akshare与Streamlit实现股票估值分析教程（图文代码）》入职测试中的一道题,要求:从Akshare下载某一个股票近十年的财务报表包括,资产负债表,利润表,现金流量表,保存... 目录一、前言二、核心知识点梳理1、Akshare数据获取2、Pandas数据处理3、Matplotl

阅读更多...

Django开发时如何避免频繁发送短信验证码（python图文代码）

Django开发时如何避免频繁发送短信验证码（python图文代码）

《Django开发时如何避免频繁发送短信验证码（python图文代码）》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送验证码1. www.chinasem.cn避免频繁发送验证码逻辑分析2. 避免频繁

阅读更多...

精选20个好玩又实用的的Python实战项目(有图文代码)

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

阅读更多...

python panda库从基础到高级操作分析

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作：数据读取与查看3. 索引操作：精准定位数据4. Group

阅读更多...

Python pandas库自学超详细教程

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入（CSV/Excel等）、数据结构（Series、DataFrame）、数据清洗、转换... 目录一、什么是Pandas库（1）、Pandas 应用（2）、Pandas 功能（3）、数据结构二、安

阅读更多...

Python使用Tenacity一行代码实现自动重试详解

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门：一行代码实现优雅重试精细控制：让重试按我

阅读更多...