JavaWeb——唐诗分析项目

2023-11-06 01:20
文章标签 java 分析 项目 web 唐诗

本文主要是介绍JavaWeb——唐诗分析项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

唐诗分析项目

  • 1.项目介绍
  • 2.项目整体设计
  • 3.项目技术
  • 4.数据库表设计
  • 4.核心模块一:诗词爬取模块
  • 5.核心模块二:数据可视化模块
  • 6.效果展示
  • 7.项目源码

1.项目介绍

1,项目简介:将中国古代唐诗数据从页面中获取,并对数据进行处理分析等,将数据以图表的方式呈现出来,使用户能更直观快速的去了解古代唐诗。

2,项目成果:让用户直观的看到唐朝的各个诗人的作诗量(柱状图);展示诗人们使用最频繁的词语(词云)。

2.项目整体设计

1,获取数据

  1. 访问列表页(唐诗三百首大全)来获取页面中唐诗数据;
  2. 编写程序模拟客户端向浏览器构建 Http 请求获取 Html 页面数据;
  3. 将获取到的列表页 html 数据,保存在 列表页.html 中。

2,分析数据和整理数据

  1. 观察 列表页.xml 中的表单,提取每首唐诗页面的子路径 ,保存至 LinkedList 中;
  2. 根据每首诗的 url ,获取每首的详情页(诗词页)页面数据,将页面中诗的作者、标题、朝代、诗词正文等提取出来;
  3. 计算 sha256(标题+正文),保证数据不重复;
  4. 调用分词的第三方库,对内容进行分词;
  5. 将数据保存至数据库中。

3,提取数据库中的信息选择合适的图形界面来展示。

  1. 唐朝的各个诗人的作诗量(柱状图);
  2. 诗人们使用最频繁的词语(词云)。

3.项目技术

1,多线程

2,JDBC(数据库操作)

  1. 唐诗数据保存至数据库 。
  2. 页面展示时提取数据库信息。

3,数据结构

  1. List
  2. Map

4,HtmlUnit(数据爬取)

  1. 网页请求。
  2. 网页解析。

5,ansj_seg(分词)

  1. 对诗词内容按照一定的规则进行分词。
  2. 为可视化见面的词云做准备工作。

6,maven(项目管理工具)

  1. 依赖管理。
  2. 在项目开发的过程中,使用很多第三方依赖包,它可以极大提高开发效率。

7,JQuery(前后端交互)

  1. 进行异步来提交更新数据。

8,redis(缓存提高访问效率)

  1. 在词云展示模块中,使用到 redis 进行处理。
  2. 当用户不查询或者不点击对应诗人的数据时,我们不存储。当用户第一次点击后,先去数据库中查询,之后存在redis中,当下一次访问时就可以高效的访问了。

9,echarts(前端渲染)

  1. 柱状图:诗人的作诗量
  2. 词云: 诗人们使用最频繁的词语

4.数据库表设计

CREATE TABLE IF NOT EXISTS tangshi (id INT(11) PRIMARY KEY AUTO_INCREMENT COMMENT "自增主键",sha256 CHAR(64) NOT NULL UNIQUE COMMENT "sha256标题",url VARCHAR(1024) NOT NULL COMMENT "诗词url",dynasty VARCHAR(32) NOT NULL COMMENT "诗词朝代",author VARCHAR(32) NOT NULL COMMENT "诗词作者",title VARCHAR(200) NOT NULL COMMENT "诗词标题",content TEXT NOT NULL COMMENT "诗词正文",words TEXT NOT NULL COMMENT "分词" ,created_ at TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT "记录入库时间"
)

为什么要引入SHA-256?

使用sha256标题,为每首诗生成一个唯一标识符,可以(标题 +作者+正文)保证不会重复插入。

链接:了解什么是 SHA-256

4.核心模块一:诗词爬取模块

诗词爬取模块:页面爬取,文档解析,分词。

链接:唐诗分析项目——诗词爬取模块

5.核心模块二:数据可视化模块

链接:唐诗分析项目——数据可视化模块

6.效果展示

在这里插入图片描述
在这里插入图片描述

7.项目源码

github链接:

这篇关于JavaWeb——唐诗分析项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/353666

相关文章

SpringBoot实现RSA+AES自动接口解密的实战指南

《SpringBoot实现RSA+AES自动接口解密的实战指南》在当今数据泄露频发的网络环境中,接口安全已成为开发者不可忽视的核心议题,RSA+AES混合加密方案因其安全性高、性能优越而被广泛采用,本... 目录一、项目依赖与环境准备1.1 Maven依赖配置1.2 密钥生成与配置二、加密工具类实现2.1

在Java中实现线程之间的数据共享的几种方式总结

《在Java中实现线程之间的数据共享的几种方式总结》在Java中实现线程间数据共享是并发编程的核心需求,但需要谨慎处理同步问题以避免竞态条件,本文通过代码示例给大家介绍了几种主要实现方式及其最佳实践,... 目录1. 共享变量与同步机制2. 轻量级通信机制3. 线程安全容器4. 线程局部变量(ThreadL

python使用Akshare与Streamlit实现股票估值分析教程(图文代码)

《python使用Akshare与Streamlit实现股票估值分析教程(图文代码)》入职测试中的一道题,要求:从Akshare下载某一个股票近十年的财务报表包括,资产负债表,利润表,现金流量表,保存... 目录一、前言二、核心知识点梳理1、Akshare数据获取2、Pandas数据处理3、Matplotl

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Spring Boot集成/输出/日志级别控制/持久化开发实践

《SpringBoot集成/输出/日志级别控制/持久化开发实践》SpringBoot默认集成Logback,支持灵活日志级别配置(INFO/DEBUG等),输出包含时间戳、级别、类名等信息,并可通过... 目录一、日志概述1.1、Spring Boot日志简介1.2、日志框架与默认配置1.3、日志的核心作用

破茧 JDBC:MyBatis 在 Spring Boot 中的轻量实践指南

《破茧JDBC:MyBatis在SpringBoot中的轻量实践指南》MyBatis是持久层框架,简化JDBC开发,通过接口+XML/注解实现数据访问,动态代理生成实现类,支持增删改查及参数... 目录一、什么是 MyBATis二、 MyBatis 入门2.1、创建项目2.2、配置数据库连接字符串2.3、入

Springboot项目启动失败提示找不到dao类的解决

《Springboot项目启动失败提示找不到dao类的解决》SpringBoot启动失败,因ProductServiceImpl未正确注入ProductDao,原因:Dao未注册为Bean,解决:在启... 目录错误描述原因解决方法总结***************************APPLICA编