JavaWeb——唐诗分析项目

2023-11-06 01:20
文章标签 java 分析 项目 web 唐诗

本文主要是介绍JavaWeb——唐诗分析项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

唐诗分析项目

  • 1.项目介绍
  • 2.项目整体设计
  • 3.项目技术
  • 4.数据库表设计
  • 4.核心模块一:诗词爬取模块
  • 5.核心模块二:数据可视化模块
  • 6.效果展示
  • 7.项目源码

1.项目介绍

1,项目简介:将中国古代唐诗数据从页面中获取,并对数据进行处理分析等,将数据以图表的方式呈现出来,使用户能更直观快速的去了解古代唐诗。

2,项目成果:让用户直观的看到唐朝的各个诗人的作诗量(柱状图);展示诗人们使用最频繁的词语(词云)。

2.项目整体设计

1,获取数据

  1. 访问列表页(唐诗三百首大全)来获取页面中唐诗数据;
  2. 编写程序模拟客户端向浏览器构建 Http 请求获取 Html 页面数据;
  3. 将获取到的列表页 html 数据,保存在 列表页.html 中。

2,分析数据和整理数据

  1. 观察 列表页.xml 中的表单,提取每首唐诗页面的子路径 ,保存至 LinkedList 中;
  2. 根据每首诗的 url ,获取每首的详情页(诗词页)页面数据,将页面中诗的作者、标题、朝代、诗词正文等提取出来;
  3. 计算 sha256(标题+正文),保证数据不重复;
  4. 调用分词的第三方库,对内容进行分词;
  5. 将数据保存至数据库中。

3,提取数据库中的信息选择合适的图形界面来展示。

  1. 唐朝的各个诗人的作诗量(柱状图);
  2. 诗人们使用最频繁的词语(词云)。

3.项目技术

1,多线程

2,JDBC(数据库操作)

  1. 唐诗数据保存至数据库 。
  2. 页面展示时提取数据库信息。

3,数据结构

  1. List
  2. Map

4,HtmlUnit(数据爬取)

  1. 网页请求。
  2. 网页解析。

5,ansj_seg(分词)

  1. 对诗词内容按照一定的规则进行分词。
  2. 为可视化见面的词云做准备工作。

6,maven(项目管理工具)

  1. 依赖管理。
  2. 在项目开发的过程中,使用很多第三方依赖包,它可以极大提高开发效率。

7,JQuery(前后端交互)

  1. 进行异步来提交更新数据。

8,redis(缓存提高访问效率)

  1. 在词云展示模块中,使用到 redis 进行处理。
  2. 当用户不查询或者不点击对应诗人的数据时,我们不存储。当用户第一次点击后,先去数据库中查询,之后存在redis中,当下一次访问时就可以高效的访问了。

9,echarts(前端渲染)

  1. 柱状图:诗人的作诗量
  2. 词云: 诗人们使用最频繁的词语

4.数据库表设计

CREATE TABLE IF NOT EXISTS tangshi (id INT(11) PRIMARY KEY AUTO_INCREMENT COMMENT "自增主键",sha256 CHAR(64) NOT NULL UNIQUE COMMENT "sha256标题",url VARCHAR(1024) NOT NULL COMMENT "诗词url",dynasty VARCHAR(32) NOT NULL COMMENT "诗词朝代",author VARCHAR(32) NOT NULL COMMENT "诗词作者",title VARCHAR(200) NOT NULL COMMENT "诗词标题",content TEXT NOT NULL COMMENT "诗词正文",words TEXT NOT NULL COMMENT "分词" ,created_ at TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT "记录入库时间"
)

为什么要引入SHA-256?

使用sha256标题,为每首诗生成一个唯一标识符,可以(标题 +作者+正文)保证不会重复插入。

链接:了解什么是 SHA-256

4.核心模块一:诗词爬取模块

诗词爬取模块:页面爬取,文档解析,分词。

链接:唐诗分析项目——诗词爬取模块

5.核心模块二:数据可视化模块

链接:唐诗分析项目——数据可视化模块

6.效果展示

在这里插入图片描述
在这里插入图片描述

7.项目源码

github链接:

这篇关于JavaWeb——唐诗分析项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/353666

相关文章

Spring三级缓存解决循环依赖的解析过程

《Spring三级缓存解决循环依赖的解析过程》:本文主要介绍Spring三级缓存解决循环依赖的解析过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、循环依赖场景二、三级缓存定义三、解决流程(以ServiceA和ServiceB为例)四、关键机制详解五、设计约

spring IOC的理解之原理和实现过程

《springIOC的理解之原理和实现过程》:本文主要介绍springIOC的理解之原理和实现过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、IoC 核心概念二、核心原理1. 容器架构2. 核心组件3. 工作流程三、关键实现机制1. Bean生命周期2.

解决tomcat启动时报Junit相关错误java.lang.ClassNotFoundException: org.junit.Test问题

《解决tomcat启动时报Junit相关错误java.lang.ClassNotFoundException:org.junit.Test问题》:本文主要介绍解决tomcat启动时报Junit相... 目录tomcat启动时报Junit相关错误Java.lang.ClassNotFoundException

Gradle下如何搭建SpringCloud分布式环境

《Gradle下如何搭建SpringCloud分布式环境》:本文主要介绍Gradle下如何搭建SpringCloud分布式环境问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录Gradle下搭建SpringCloud分布式环境1.idea配置好gradle2.创建一个空的gr

JVM垃圾回收机制之GC解读

《JVM垃圾回收机制之GC解读》:本文主要介绍JVM垃圾回收机制之GC,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、死亡对象的判断算法1.1 引用计数算法1.2 可达性分析算法二、垃圾回收算法2.1 标记-清除算法2.2 复制算法2.3 标记-整理算法2.4

解决Maven项目报错:failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.13.0的问题

《解决Maven项目报错:failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.13.0的问题》这篇文章主要介... 目录Maven项目报错:failed to execute goal org.apache.maven.pl

springboot集成Lucene的详细指南

《springboot集成Lucene的详细指南》这篇文章主要为大家详细介绍了springboot集成Lucene的详细指南,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起... 目录添加依赖创建配置类创建实体类创建索引服务类创建搜索服务类创建控制器类使用示例以下是 Spring

Java调用Python的四种方法小结

《Java调用Python的四种方法小结》在现代开发中,结合不同编程语言的优势往往能达到事半功倍的效果,本文将详细介绍四种在Java中调用Python的方法,并推荐一种最常用且实用的方法,希望对大家有... 目录一、在Java类中直接执行python语句二、在Java中直接调用Python脚本三、使用Run

Java根据IP地址实现归属地获取

《Java根据IP地址实现归属地获取》Ip2region是一个离线IP地址定位库和IP定位数据管理框架,这篇文章主要为大家详细介绍了Java如何使用Ip2region实现根据IP地址获取归属地,感兴趣... 目录一、使用Ip2region离线获取1、Ip2region简介2、导包3、下编程载xdb文件4、J

浅析如何使用xstream实现javaBean与xml互转

《浅析如何使用xstream实现javaBean与xml互转》XStream是一个用于将Java对象与XML之间进行转换的库,它非常简单易用,下面将详细介绍如何使用XStream实现JavaBean与... 目录1. 引入依赖2. 定义 JavaBean3. JavaBean 转 XML4. XML 转 J