第一张黑洞照片的背后 :数据科学与开放式科研

2023-10-14 22:50

本文主要是介绍第一张黑洞照片的背后 :数据科学与开放式科研,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

相信大家还记得不久前,北京时间4月10日晚9时许,全球观众都激动的守在屏幕前,等待人类史上第一张黑洞的“真容”。照片显示的是位于星系M87中心的黑洞,距离地球约5500万光年。尽管它有太阳的400万倍,但它的距离是如此之远以致于极难观测,在地球上观测这个黑洞,相当于站在纽约去测量一个位于洛杉矶的高尔夫球洞。  


现在,热度和兴奋过去了,我们是时候谈谈这张人类有史以来第一张黑洞照片的背后,数据科学和开放式科研到底起到了什么样重要的作用。

 

EHT是一个专门用于获取黑洞影像的实验项目,通过联合全球多地的8组天文望远镜,构建一个口径等同于地球直径的“虚拟”望远镜,从而收集海量数据,并勾勒出黑洞的模样。


这个科研项目的背后,还藏着另一支神秘的数据团队

 

黑洞照片和普通拍照不同,为了获取这张照片,需要分布在全球各地的许多天文望远镜在同一时间“按下快门”,收集宇宙中传来的各种无线电数据,包括关于黑洞的数据信息。

 

本来,根据射电望远镜数据还原天体图像需要人类天文学家完成。然而面对如此大量稀疏、嘈杂的数据,想靠传统的人力方法从中找出图像太难了,但天文学家们自身并没有算法建模和机器学习的能力。于是,他们找到了Katie Bouman所在的算法团队,将装着大量数据的硬盘交给他们,通过机器学习,把数据过滤、筛选并拼到一起,重建出图像。以自己的专业数据知识,为成像算法找到正确的方向。

 

Katie Bouman 今年29岁,当时她是一名MIT在读的博士,Katie来自计算机科学专业,当时的她对于天文方面一窍不通。即使这样,她还是带领了这只算法团队,成功构建出了这张黑洞照片,也成了第一批“看到”黑洞的人类之一。

 

640?wx_fmt=jpeg


开放式数据科学团队合作,渗入各领域科研

 

黑洞照片的成功洗出,很大程度上得益于数据科学和机器学习技术的发展,但数据科学不仅仅为天文科学提供机会,它为各领域的科研都提供了更大可能。

 

2017年,就读与University of North Texas 的一名生物学博士Sheela,研究不同治疗方法对生育的影响,她用了好几年的时间,终于采集到了104 个样本,每个样本包括29 个特征变量。但是当她试图采用回归和方差分析的手段,来构造模型时,却发现结果和和原因一点儿显著关系都没有,这几年的心血就要付之东流。

 

于是Sheela找到了他们学校的一个数据分析团队,叫做DSA数据科学与分析部门(Data Science and Analysis),DSA中的成员对数据进行了整体的分析和,得出了基于决策树的监督学习+遗传算法,然后采用BIC 做模型选择。在得到的图中,几种不同疗法,在不同的条件下,对应的效果差别一目了然,还给出了决策树模型。最后,Sheela 不仅顺利毕业,而且还把论文发在了一份很好的期刊上面。

 

640?wx_fmt=jpeg


提升科研效率的秘诀,引入外部数据科学力量

 

Sleena面对的问题,也是是大多数科研人员面临的问题,因为他们已经把自己的全部精力用在了不断追赶自身领域前沿上,并没有余力去提高自己的数据分析技能。

 

数据科学是专业领域,所以如果能引入科研团队外部专业数据科学家的力量推进自己的科研中的数据分析环节,无疑是科研为科研之路的极大助力,可以让更多人应用数据科学的门槛大幅降低。更可宝贵的,是这种一站式咨询与合作方式,不仅可以帮助有困难的科研团队解决燃眉之急,更有助于形成良性互动循环,使得科研项目做大做强。


数据科学协同研发平台,获得专属的数据科学解决方案

 

随着数据科学的需求水涨船高,在国外已经诞生了不少数据科学或科研服务众包平台,例如Gigster、Crowdicity、Presants、Numar.AI、Science Exchange等平台,国内有heywhale和鲸社区,上面汇集了一大批数据科学家和数据科学项目。这些平台以众包方式解决科研中数据共享、协同创新等问题,在国外这已经是常态化的方式,国内虽然起步较晚,但也已经被越来越多的高校、科研机构、企业所接受。许多科研团队和企业将自身项目中需要数据科学解决的问题发布在平台上,吸引各领域的专业数据人才,通过协同研发的方式提供解决方案。

 

中国的数据科学平台和数据科学社区目前还正在快速发展期,HeyWhale和鲸科技是目前国内最大的第三方数据科学协同创新平台,其社区拥有5万多数据科学家用户。今年和鲸社区开放了协同研发版块,致力于帮助人才不足的团队与企业解决数据问题。和鲸协同研发基于高质量的数据AI团队、精细的过程管理规划和强大的算法分析研发工具Kescilab,三大基石为客户服务提供了全面支持,并使用多重手段确保数据安全。

 

和鲸协作研发业务发布流程非常简洁,首先提出问题及需求,其次准备解决好对应问题的数据集,最后在和鲸社区主页任务上发布即可。和鲸会根据企业的具体需求给出实施方案;待任务发布后,通过算法匹配和多重筛选机制,找到合适人才;精细管理让各团队同时推进,及时知晓进度;交付验收时,基于科学的评测机制,以赛马机制成果选优方案。

 

640?wx_fmt=jpeg


在开放协同众包服务后,清华大学的一个历史科研团队将自己的数据分析项目发布在和鲸平台上,短时间内便有数支擅长数据分析的队伍参与,为该提供了数据分析方案,迅速推进了科研项目进度。目前,和鲸协同研发已经服务了来自清华大学、上海交通大学等顶级高校的科研团队。

 

当技术发展到今天,协同创新平台在科研中扮演越来越重要的作用。在像和鲸这样的平台上,科研工作者一方面可以继续在“孤单”中埋头苦干、精耕细作;另一方面也可以和全球的同行联合开展研究项目,共同推动科研成果与市场的对接。

 

在社交网络的丛林中,科研社交与众包平台就像一块远离喧嚣的宝地,聚集着来自全球的科研人员,交流学术成果、协作科学研究,并共同与市场建立起更紧密的联系。科学研究是一项具有鲜明双重属性的活动:一方面,科研工作者需要高度专注、耐得住寂寞与孤单,哪怕一辈子只发现了一种化学元素,一辈子只解答了一个科学猜想;另一方面,即使有保密和竞争需要,科研工作者仍然离不开跨国界、跨科学的交流。高质量的碰撞、沟通与协同,会产生更美丽的火花,甚至跨时代的发现与发明。


640?wx_fmt=png


「END」



数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

640?wx_fmt=png

这篇关于第一张黑洞照片的背后 :数据科学与开放式科研的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/213684

相关文章

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

Java整合Protocol Buffers实现高效数据序列化实践

《Java整合ProtocolBuffers实现高效数据序列化实践》ProtocolBuffers是Google开发的一种语言中立、平台中立、可扩展的结构化数据序列化机制,类似于XML但更小、更快... 目录一、Protocol Buffers简介1.1 什么是Protocol Buffers1.2 Pro

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热

MySQL数据脱敏的实现方法

《MySQL数据脱敏的实现方法》本文主要介绍了MySQL数据脱敏的实现方法,包括字符替换、加密等方法,通过工具类和数据库服务整合,确保敏感信息在查询结果中被掩码处理,感兴趣的可以了解一下... 目录一. 数据脱敏的方法二. 字符替换脱敏1. 创建数据脱敏工具类三. 整合到数据库操作1. 创建服务类进行数据库

MySQL中处理数据的并发一致性的实现示例

《MySQL中处理数据的并发一致性的实现示例》在MySQL中处理数据的并发一致性是确保多个用户或应用程序同时访问和修改数据库时,不会导致数据冲突、数据丢失或数据不一致,MySQL通过事务和锁机制来管理... 目录一、事务(Transactions)1. 事务控制语句二、锁(Locks)1. 锁类型2. 锁粒