科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气

本文主要是介绍科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

By 超神经

内容一览:近期,来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

关键词:恶劣天气   机器学习   随机森林   

作者 | 缓缓

编辑 | 三羊

天气预报尤其是恶劣天气预报对人们日常工作、生活等方面具有重要影响。Sigma 研究报告《经济积累和气候变化时期的自然灾害》(Natural catastrophes in times of economic accumulation and climate change) 显示,近年来恶劣天气对全球造成的损失不断加剧,仅 2019 年,相关灾害事件造成的全球经济损失就高达 1460 亿美元,保险损失高达 600 亿美元。并且,报告还称,随着恶劣天气灾害破坏性日益加重,未来相关损失会进一步加剧。因此,准确预测恶劣天气显得尤为迫切。

近期,美国科罗拉多州立大学的 Aaron J. Hill、Russ S. Schumacher 与国家海洋和大气管理局 (NOAA) 风暴预测中心 (SPC) 的 Israel Jirak 联合开发了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期(4-8天)范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

4b550a0a903a6027ba122a0414d7a107.png

目前该成果已发布在《Weather and Forecasting》

论文地址:

https://arxiv.org/abs/2208.02383

 CSU-MLP 概述

美国恶劣天气预报一般是由上文提到的 SPC 使用数值天气预报 (numerical weather prediction,简称 NWP) 模型进行预报,该模型能够提前 1-2 天预警特定恶劣天气及发生的地点,但在提前 3-8 天时只能预警发生的地点,无法预测是哪种恶劣天气。

近十年来,一种高分辨率的数值天气预报模型 CAMs (convection-allowing models) 应运而生,小于 4 天(短期)时间范围内的预报变得更加精准,但对于中长期时间范围来说,预测效果却没有较大改观。这种背景下,机器学习逐步在气象学领域得到应用。

本项研究 CSU-MLP (Colorado State University Machine Learning Probabilities) 中,模型训练的气象数据来自全球几何预报系统 (Global Ensemble Forecast System version 12,简称为 GEFSv12) 再预报数据集 (以下简称 GEFS/R),该数据集包含了美国本土 20 年的详细历史天气数据。研究人员从中选取了 9 年(2003 年-2012 年)的数据作为本次中期预报研究训练集,选取了 2 年 (2020 年-2022 年) 作为测试集。

 随机森林算法 

本研究基于一个叫随机森林 (Random Forest,简称 RF) 的机器学习算法。所谓随机森林是一种基于集成学习(Ensemble Learning)的分类和回归算法。具体到本研究中,就是通过恶劣天气特征输入,遍历整个决策树从而得出恶劣天气的预测结果。

因此,在随机森林算法中,恶劣天气的特征输入的尤为重要,在本研究试验中,研究人员从上述提到的训练集中提取了 12 个与恶劣天气有关联的特征变量用作训练,具体特征变量如下表所示。

7005e40615c31c294f38ba3179b363bc.png

用于模型训练和预测的 12 个特征变量

不过,在 GEFS/R 数据集中,这些特征变量分辨率并不一致,为此研究人员进行了插值处理,将其统一到了 0.5 度网格间距 (dergee grid spacing)。

 特征工程 

本研究中除了采用随机森林进行中期恶劣天气预测分析能力,还简要探究了特征工程。所谓特征工程指一种处理数据的技术,用于从观测事件周围收集特征,并将其转换为机器学习算法可以使用的形式。具体到本试验中,研究人员主要提出了两种方法进行简化特征,包括空间平均 (spatially averaging the features) 和时滞方法 (time-lagging) 等。

空间平均是指在研究人员提出将每个预测空间点上所有特征变量的值取平均数,这样可以减少噪声数据的干扰从而提高模型性能。具体过程如下图所示。

5bbecfdacbc1cd39b959afc3f287c807.png

特征变量组合处理方式

时滞方法是指在预测或建模过程中,将过去一段时间的观测数据延迟应用于当前时间点的预测或建模中。

它基于假设,过去的观测数据可以提供有关当前状态和未来趋势的有用信息。本次试验中,研究人员使用了时滞方法来扩充 GEFS/R 数据集的规模,但这个过程并不会对模型产生额外的计算量。

 试验结果

研究人员使用 GEFSv12 的 1.5 年实时天气预报测试 CSU-MLP 预测结果,并与 SPC 生成的人工预报进行对比。相关试验结果显示,在中期预报范围内,基于随机森林的预报系统的准确性及预报地域范围都要优于 SPC,如下图所示。但是,随着时间范围的增大,二者的预报能力都会有所下降。

16e74105ee0c774cc04e65444b33e403.png

2022年3月27日,CSU-MLP与SPC中期预报对比

a 图是 CSU-MLP 的 4 天预报,b 图为 SPC 的 4 天预报。其中,被阴影覆盖的部分指的是恶劣天气的预测概率,圆形图标指的是 SPC 的龙卷风(红色)、冰雹(绿色)和风暴(蓝色)的局部预报,图片的左下角和右下角分别为评估天气预报准确性的预测技能得分 BSS 和评估局部天气预报代表性的观测覆盖率。

对此,研究人员总结,整个预测系统的技巧性和精确性都有了很大的提升,主要是因为基于随机森林的预测系统在连续概率以及低概率轮廓(表示恶劣天气的估计中,概率较低的区域所形成的轮廓)两方面预测能力很强

此外,研究人员还通过试验不同地区、不同因素(热力学和动力学)对于预报的影响,探究了特征变量对恶劣天气预报很重要。结果如下图所示。

82e28000088ad3e731350a9a8a7d9ba4.png

不同特征变量对天气预报很重要

虽然上述不同因素、不同地区对预报的具体影响还有待于深入研究,但从中研究人员作出了初步判断:这些不同的特征变量会被模型进一步学习并用来进行恶劣天气预报。这也说明,基于随机森林的预测系统经过进一步的训练完善,是具有一定可信性和实用性的。

当然,在本试验过程中,研究人员也提出了基于随机森林的预测系统仍有很多需要完善的部分。比如,CSU-MLP 还需要再加入 SPC 人工预报的预测数据,进一步提升机器学习预报结果的可信性。

 AI 智能气象新阶段或将到来

人类一直致力于理解并预测世界,其中较为成功的例子之一便是天气预报。古时候,人们大多依据生活经验来进行预报,如「朝霞不出门,晚霞行千里」等,到现代,科学家们开始使用传感器和气象卫星收集海量数据来进行更精准的预报。

值得关注的是,在气象学发展的现阶段,AI 的加入大大增强了天气预报的准确性。据外媒报道,近几年瑞士的气象研究人员通过引入 AI,成功预测到闪电的时间和地点,该模型目前预测准确性达到 80%。

同时早在 2015 年,IBM 公司就斥资 20 亿美元收购天气频道 (WeatherChannel) 母公司 Weather Co. 数码和数据资产,而该公司之所以花费如此大手笔,也正是计划将 Weather Co. 的天气数据和预测信息同旗下 AI 服务 Watson 相结合。可见,IBM 等巨头已经十分看好 AI 在气象学上的潜力,并已开始着手布局。

不难预测,虽然影响天气变化的客观因素成千上万,天气精准预报的难度依然较大,但随着 AI 和气象学融合的进一步加深,一个由 AI 定义的智能气象新时代或将加速来到。

P.S.:

本篇论文 code 及数据集后续会发布在 HyperAI超神经官网 Hyper.ai,感兴趣的伙伴们可以持续关注~

—— 完 ——

1f36bf6a982bd3969a61963eac9c4855.jpeg

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容(点击图片阅读)

18b988ba0684d00a820ac78b01f2a683.png

c5b27af62b67e677b7ac109dedc5cd13.png

84b8235ab9cbbe92cf4be01d6018911a.png

44421e6a166ec1803671a998238d2bb0.gif

这篇关于科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/829942

相关文章

python编写朋克风格的天气查询程序

《python编写朋克风格的天气查询程序》这篇文章主要为大家详细介绍了一个基于Python的桌面应用程序,使用了tkinter库来创建图形用户界面并通过requests库调用Open-MeteoAPI... 目录工具介绍工具使用说明python脚本内容如何运行脚本工具介绍这个天气查询工具是一个基于 Pyt

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

基于Python实现智能天气提醒助手

《基于Python实现智能天气提醒助手》这篇文章主要来和大家分享一个实用的Python天气提醒助手开发方案,这个工具可以方便地集成到青龙面板或其他调度框架中使用,有需要的小伙伴可以参考一下... 目录项目概述核心功能技术实现1. 天气API集成2. AI建议生成3. 消息推送环境配置使用方法完整代码项目特点

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

macOS Sequoia 15.5 发布: 改进邮件和屏幕使用时间功能

《macOSSequoia15.5发布:改进邮件和屏幕使用时间功能》经过常规Beta测试后,新的macOSSequoia15.5现已公开发布,但重要的新功能将被保留到WWDC和... MACOS Sequoia 15.5 正式发布!本次更新为 Mac 用户带来了一系列功能强化、错误修复和安全性提升,进一步增

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品(如商品、电影、音乐等)的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理 算法分类 计算方法应用场景 代码实现 前言协同过滤算法(Collaborativ

Maven 依赖发布与仓库治理的过程解析

《Maven依赖发布与仓库治理的过程解析》:本文主要介绍Maven依赖发布与仓库治理的过程解析,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下... 目录Maven 依赖发布与仓库治理引言第一章:distributionManagement配置的工程化实践1

Python开发文字版随机事件游戏的项目实例

《Python开发文字版随机事件游戏的项目实例》随机事件游戏是一种通过生成不可预测的事件来增强游戏体验的类型,在这篇博文中,我们将使用Python开发一款文字版随机事件游戏,通过这个项目,读者不仅能够... 目录项目概述2.1 游戏概念2.2 游戏特色2.3 目标玩家群体技术选择与环境准备3.1 开发环境3

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加