朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访

本文主要是介绍朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png


[ 导读 ] 清华-青岛数据科学研究院(以下简称“数据院”)自2014年4月成立以来,秉承“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”24字指导方针,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才。

 

由清华大学研究生院、数据科学研究院及相关院系共同设计组织实施的“清华大学大数据能力提升项目”,通过整合建设课程模块,形成大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,提升学生大数据分析能力和创新应用能力。

 

截至2019年6月,已有来自31个院系的271名同学获得了“大数据能力提升项目”证书,其中信息类同学160人,非信息类同学111人。

 

清华的数据科学人才培养究竟有什么特别之处?让我们通过倾听优秀的大数据人才讲述他们与“大数据”的不解之缘,一起寻求答案吧!


640?wx_fmt=png

参加成都八零比赛结束后

 

朱思宇是清华大学17级水利水电工程系硕士,毕业后将前往北京大学遥感所继续攻读博士学位。曾在2018年荣获数据院RONG奖学金特等奖、并成为学生大数据协会会长的他谈到大数据时感触颇深地说:

 


大数据是一个方法,而且是目前看来能够高效解决问题的方法。大数据项目课程的学习和实践,让我认识到大数据与自身专业的结合大有所为,同时也让我看到了其中的问题所在,我将坚持不懈地在这些难点上继续挖掘、创新。


缘起:“课堂与实践是大数据的启蒙之师”

 

在本科刚刚接触科学研究时,朱思宇同学遇到了一个棘手的图像处理问题。当时他根据过往的经验主观判断,并不认为大数据的方法能够解决这个问题。没想到稍加试验,就取得了突破性的进展,“效果特别好,之后我就一直告诉自己,数据和机器的潜力很大。”在不断完善程序和实验后,这项技术应用也最终发表于IEEE-JSTARS。


2017年9月,刚刚成为硕士研究生的朱思宇偶然得知面向研究生开放报名的大数据项目。想起本科期间从大数据中尝到的甜头,以及对编程的浓厚兴趣,以及系里能够抵换本专业学分的优惠政策,朱思宇毫不犹豫地报名并选修了四门大数据项目课程:《大数据系统基础A》、《数据可视化》、《数据思维与行为》和《大数据实践课》。


其中,由清华大学社科学院院长彭凯平教授开办的《数据思维与行为》令他印象深刻。除了因彭教授享誉内外,个人魅力吸引入门以外,在每次其他同学咨询选课时,他总会提到:“这门课应该是大数据课程中小姐姐最多的课程”。


但是经过一段时间的学习,他很快就发现这门课在整个大数据项目的教学体系中的存在很特殊。“首先这门课是少有的文科类数据课程,整个课程设计偏向于思维习惯的训练和心理学的一些知识,使得技术惯性思维的理科生能够更多思考技术对于社会和个人的作用。加上彭凯平老师个人的人生阅历很广,所以在授课过程中时刻向我们涉及着数据伦理与哲学的思辨。我们搞技术的时候,往往不去思考技术行为背后的意义与合理性,但是这往往容易暗含问题。


朱思宇举例子解释道:“大数据可以轻易获取用户信息,并据此向用户推送相关信息,这对用户而言是方便的。但是在这门课后,我开始意识到,这种行为也会暴露个人隐私。


朱思宇和同学们在彭凯平老师的课堂上进行了很多关于数据伦理的探讨,这些探讨看似与技术本身无关,但却帮助朱思宇和同学们养成了技术的前期思考。“这时刻提醒着我,在处理数据和分析数据之前,一定要想清楚行为的意义及其背后的社会影响。


除此之外,《大数据实践课》被同学们视为整个大数据项目的灵魂。朱思宇在中铁多式联运有限公司的项目实践,让他在实践的基础上,将所学知识进行了升华。


 “国企对这个实践项目的理解非常到位,他们不会强制同学们做一些无意义的重复工作,而是引导我们完成一个小项目,尝试着为他们解决技术问题。”朱思宇谈起大数据实践项目便滔滔不绝。“我们的项目是识别图表文字,中铁的领导为我们提供了很多真实的表单数据,并充分给予我们信任,让我们大胆探索。

 

640?wx_fmt=png

朱思宇在《大数据实践课》项目中进行答辩

 

在不断的了解过程中,朱思宇的小组共同发现了技术实现的难点所在。整个工作程序复杂,需要识别大量的重要信息,并且他们的表单格式复杂多样、盖章、颜色等问题为识别带来了很大的困难。但是秉持着实践探索的精神,朱思宇和小组成员仍进行了多次尝试,最终做出了一个实现自动提取文字、识别归类的程序,并有着一定的准确率,这是朱思宇第一次用真实的大数据解决产业问题。


这次实践经历让朱思宇切实地明白了,“在实际的生产工作中,技术应该是为目的而服务的,最简单高效、成本最低的技术才是真正实用的好技术。

 

起承:“在协会中帮助更多同学了解大数据”

 

这次实践机会让朱思宇与数据院有了更加深入的了解,于是朱思宇在研二有机会成为了学生大数据协会的会长,开始全心全意地为大数据协会服务。


在大数据协会期间,协会主要举办了几项大活动。在上学期,由明哲师兄带头,开创了“AI自强计划”,报名异常火爆,八场讲座覆盖校内外人数超千人,并于讲座后实现转化任务,举办了转化比赛。而下个学期,协会主要举办了两个活动。一个是“数据故事计划”,旨在收集非大数据专业的同学们如何利用大数据解决自己专业问题的故事。令他印象最深刻的是获得第一名的小组,和另一位往届优秀学长仉立的思路相似,利用农村闲置劳动力做标注数据的工作,并为他们发放劳务,不但利用了留守人口的闲暇时间和精力解决了数据标注劳动成本的问题,同时也使得他们的生活水准有了一定的提高。

 

640?wx_fmt=png

学生大数据协会招新现场

 

另一个活动项目就是近期举办的“中澳大数据比赛”,这是一个由数据院与大数据协会举办的面向全校乃至全社会招募的大数据比赛。“因为我们完全从零开始,尽管过程中有仍存在很多不足,但是我们也会在反馈中提高”。


比赛的消息一出来,同学们参赛热情非常高,初赛报名群中的选手将近200人,线下报名70余人,最后组队成功至少16队。“为了争夺进入决赛的名额,同学们在两天时间内拿到题目、着手做、再到答辩,虽然这是现在数据比赛比较常见的数据马拉松,但是其对同学们的精力和体力都是巨大的考验,他们有的熬夜准备,有的在高铁上仍在提交结果。


朱思宇十分非常触动地说:“深受之前大数据课程的影响,我们在出题方面也会注重数据伦理,将真实的保险公司数据进行数据清洗,以免造成隐私泄漏等问题。这个比赛也算打响了数据院和协会走向国际化的第一枪,积累了很多经验。


“大数据协会自有其使命,要吸引更多同学向大数据使用者转变,让更多同学们学会大数据、懂得大数据,这是协会的目的。


经朱思宇介绍,大数据协会近两年的活动也深深体现着其使命感:“AI自强计划”是为了教会同学实用大数据;“数据故事计划“旨在引导同学、告诉同学有哪些与数据结合的成功案例,供同学们学习。一个是教技术,一个是教方法。而“中澳大数据比赛”是把那些技术比较强和学有所成的同学们进行国际化输送与交流。所以说这三个活动实际上都会有各自的使命,并最终扩大为数据院和大数据协会的影响力。


潜行:“大数据与专业结合,大有所为”

 

“我从一开始就接触了大数据的图像识别领域,乘上了大数据的东风。”朱思宇对于大数据的好处毫不遮掩。“大数据对我帮助最大的一方面是编程能力的提高,一方面是为解决问题开阔思路。


曾经,朱思宇在学术研究中遇到调整模型参数的问题,但是他没有直接采取手动调参的传统办法,而是下了功夫写程序来调整参数。“学习到BP神经网络中反向传播和梯度下降的概念,并将这个方法应用到其他水文模型调整参数的过程中,最后通过机器转化为一组最优的参数,这就是一个大数据的思维过程。


从此,朱思宇更加意识到大数据在其专业领域“大有所为”。朱思宇表示,毕业后到北京大学进行深入研究,希望可以继续踏踏实实学技术,在其他行业里尽可能地结合新技术,不断进行创新。


但同时这类结合也并不是信手拈来,朱思宇指出,“大数据与其他行业的结合绝对是有用的,也绝对是苦难重重的,首当其中的是计算量的问题。


大数据的计算量超级大,都是以天和月为时间单位进行计算,所以大数据面临的常见问题是硬件跟不上算法,大家提出很再好的算法都没法实施,因为硬件速度受到限制,导致很多想法无法落实。


另一个正在面临的问题是对数据的滥用。“大数据虽好,但是不能滥用”,用大数据做研究,分析结果看起来很难很高级,同时质量也参差不齐。这就导致很多研究放到实际生产生活中就效果十分有限。


 “大数据是一个方法,而且是目前看来能够高效解决问题的方法。所以,我十分鼓励大家学习和了解大数据技术。但与此同时,你需要跨越编程和数学的门槛,这就需要大家赋予相应的决心和毅力,最终一定要相信相应的付出会有相应的收获。”朱思宇在专访的最后十分真诚地分享了自己关于大数据学习的看法,

 

640?wx_fmt=png

大数据项目RONG奖学金答辩合影


“虽然是老生常谈,但是通过对大数据的分析,通过无数人对历史的总结,我们发现这个结论和规律是非常正确的,所以经验也可以认为是人体大数据。以史为鉴,可以知兴替,或许就是最经典的大数据方法应用。我会继续在大数据的道路上潜心修行。

 

往期毕业生专访:

付睿:对新事物的追寻之旅 | 优秀毕业生专访

刘念宏:道与术,怎样才能真正学好大数据?

聂聪:数据科学让我为城市规划注入创新价值

姚振宇:数据科学培养下 我成为了那个不安分的"细菌"

张玉萍:数据科学的“融”是学术中的“锦上添花”

王斐:大数据学习助我完成行业撑杆跳

金语泽:大数据交叉思维让我更具创新力

王瑞琰:大数据引领我发现法学“新大陆”

龚亚丽:大数据助我打开传统行业发展新思路

张甜甜:在实践中迈进数据科学领域

张鸿轩:大数据让无形之风尽在掌握 | 优秀毕业生专访640?wx_fmt=jpeg

这篇关于朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/267999

相关文章

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I