2023mathorcup大数据竞赛选题建议及思路

2023-10-28 20:20

本文主要是介绍2023mathorcup大数据竞赛选题建议及思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好呀,昨天6点2023年第四届MathorCup高校数学建模挑战赛——大数据竞赛开赛,在这里给大家带来初步的选题建议及思路。

注意,本文章只是比较简略的图文讲解,更加详细完整的视频讲解请移步:

2023mathorcup大数据数学建模竞赛选题建议及A题B题思路_哔哩哔哩_bilibili

首先是主基调:

本次mathorcup大数据竞赛AB难度都不低,我个人更推荐小白选择A题,B题看似简单,实际上仅第一问就需要迭代最起码上千次时间序列模型做预测,求解十分繁琐,很容易卡壳,而且想做好是很难的。 A虽然略硬核,但只要有matlab,会最基础的导入数据操作(我会教),直接采用我提取特征数据的代码提取特征然后做机器学习分类预测即可。目前我已经提取了301个图片各自4096个特征,下一步准备降维或者直接进行机器学习分类。 预计28-29日更新A完整成品,B不一定做,具体看需求情况,建议尽量还是选A。

接下来详细讲讲初步思路吧:

赛道A:基于计算机视觉的坑洼道路检测和识别

问题1:结合给出的图像文件,提取图像特征,建立一个识别率高、速度快、分类准确的模型,用于识别图像中的道路是正常或者坑洼。

主要就是提取图像特征嘛,题目给了我们301张图片,看一下:

这些图片的名称本身是包含其是否为坑洼路面的信息的。也就是说后面做机器学习的标签是有的。

那第一步就是提取图像特征了,提取出来特征数据,后面就可以做机器学习分类。提取特征之前,先把图像处理成一样的大小,也就是说像素值要一样,不然我们不太方便采用深度学习算法进行特征提取:

像素值大家可以自由设置,具体怎么设置我在论文里到时候也会教。

之后就是深度学习提取特征:

我提取的特征数量是每个图片4096个,所以一共301*4096:

接下来用户这些特征做机器学习就行,当然了,特征数量太多,因此可能存在过拟合或者计算量过大,也许需要特征降维,这个等我具体训练之后看看精度吧。

给大家送一些部分图片的特征表格,看我文章最下方视频讲解。

问题2:对问题1中构建的模型进行训练,并从不同维度进行模型评估。

用一些指标评估精度,调优就行。

赛道B:电商零售商家需求预测及库存优化问题

问题一:使用附件1-4中的数据,预测出各商家在各仓库的商品2023-05-16至2023-05-30 的需求量,请将预测结果填写在结果表1并上传至竞赛平台,并对你们模型的预测性能进行评价。另外请讨论:根据数据分析及建模过程,这些由商家、仓库、商品形成的时间序列如何分类,使同一类别在需求上的特征最为相似?

B题看似简单,实则做起来会很麻烦。要预测各商家在各仓库的商品需求量,我们来看看数据表格:

35个商家:

1212个商品:

54个仓库:

一个商家-商品-仓库组合才是一个序列,每一个序列都有166个完整的时间数据。

所以,我们需要迭代计算最起码上千个时间序列模型并进行精度计算,这个计算量是非常非常大的,别说新手小白,我自己做起来估计也要很久。必须要有丰富的大数据处理相关经验。

当然了,简化一点的做法就是转化为机器学习模型或者先聚类,然后粗略地把每一类做一个预测,但最标准的做法肯定还是第一种。

之后研究如何分类使得特征需求相似:

两种做法,第一种是根据时间序列的特征进行分类,例如残差大小。

第二种更推荐,那就是根据题目的一些分类做分析。题目的附件2-4给出了商家仓库商品的各种分类信息,我们可以做一下统计,举个例子:

 seller_levelLarge      14.244694Medium      7.682062Small      31.873000Special    14.067908Name: qty, dtype: float64,warehouse _category中心仓 24.151613区域仓 8.616975Name: qty, dtype: float64,warehouse _region东北 3.384538华东 19.891776华中 9.006820华北 10.390700华南 10.989828西北 5.365153西南 6.719487

可以根据这些进行聚类。

OK,b先讲到这里。

AB的思路讲解后续都还会更新哈。总体而言,本次mathorcup大数据竞赛不算简单,推荐大家选择A,我预计29日前更新完整论文哈,B的话看大家需求的情况再定做不做吧。

OK以上只是比较简略的图文版讲解,我目前正在写A题完整论文,后续会更新哈,视频版讲解以及后续完整成品查看和免费资料领取请点击下方我的个人卡片领取↓:

这篇关于2023mathorcup大数据竞赛选题建议及思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/295689

相关文章

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

Java整合Protocol Buffers实现高效数据序列化实践

《Java整合ProtocolBuffers实现高效数据序列化实践》ProtocolBuffers是Google开发的一种语言中立、平台中立、可扩展的结构化数据序列化机制,类似于XML但更小、更快... 目录一、Protocol Buffers简介1.1 什么是Protocol Buffers1.2 Pro

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热

MySQL数据脱敏的实现方法

《MySQL数据脱敏的实现方法》本文主要介绍了MySQL数据脱敏的实现方法,包括字符替换、加密等方法,通过工具类和数据库服务整合,确保敏感信息在查询结果中被掩码处理,感兴趣的可以了解一下... 目录一. 数据脱敏的方法二. 字符替换脱敏1. 创建数据脱敏工具类三. 整合到数据库操作1. 创建服务类进行数据库

MySQL中处理数据的并发一致性的实现示例

《MySQL中处理数据的并发一致性的实现示例》在MySQL中处理数据的并发一致性是确保多个用户或应用程序同时访问和修改数据库时,不会导致数据冲突、数据丢失或数据不一致,MySQL通过事务和锁机制来管理... 目录一、事务(Transactions)1. 事务控制语句二、锁(Locks)1. 锁类型2. 锁粒