朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访

本文主要是介绍朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png


[ 导读 ] 清华-青岛数据科学研究院(以下简称“数据院”)自2014年4月成立以来,秉承“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”24字指导方针,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才。

 

由清华大学研究生院、数据科学研究院及相关院系共同设计组织实施的“清华大学大数据能力提升项目”,通过整合建设课程模块,形成大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,提升学生大数据分析能力和创新应用能力。

 

截至2019年6月,已有来自31个院系的271名同学获得了“大数据能力提升项目”证书,其中信息类同学160人,非信息类同学111人。

 

清华的数据科学人才培养究竟有什么特别之处?让我们通过倾听优秀的大数据人才讲述他们与“大数据”的不解之缘,一起寻求答案吧!


640?wx_fmt=png

参加成都八零比赛结束后

 

朱思宇是清华大学17级水利水电工程系硕士,毕业后将前往北京大学遥感所继续攻读博士学位。曾在2018年荣获数据院RONG奖学金特等奖、并成为学生大数据协会会长的他谈到大数据时感触颇深地说:

 


大数据是一个方法,而且是目前看来能够高效解决问题的方法。大数据项目课程的学习和实践,让我认识到大数据与自身专业的结合大有所为,同时也让我看到了其中的问题所在,我将坚持不懈地在这些难点上继续挖掘、创新。


缘起:“课堂与实践是大数据的启蒙之师”

 

在本科刚刚接触科学研究时,朱思宇同学遇到了一个棘手的图像处理问题。当时他根据过往的经验主观判断,并不认为大数据的方法能够解决这个问题。没想到稍加试验,就取得了突破性的进展,“效果特别好,之后我就一直告诉自己,数据和机器的潜力很大。”在不断完善程序和实验后,这项技术应用也最终发表于IEEE-JSTARS。


2017年9月,刚刚成为硕士研究生的朱思宇偶然得知面向研究生开放报名的大数据项目。想起本科期间从大数据中尝到的甜头,以及对编程的浓厚兴趣,以及系里能够抵换本专业学分的优惠政策,朱思宇毫不犹豫地报名并选修了四门大数据项目课程:《大数据系统基础A》、《数据可视化》、《数据思维与行为》和《大数据实践课》。


其中,由清华大学社科学院院长彭凯平教授开办的《数据思维与行为》令他印象深刻。除了因彭教授享誉内外,个人魅力吸引入门以外,在每次其他同学咨询选课时,他总会提到:“这门课应该是大数据课程中小姐姐最多的课程”。


但是经过一段时间的学习,他很快就发现这门课在整个大数据项目的教学体系中的存在很特殊。“首先这门课是少有的文科类数据课程,整个课程设计偏向于思维习惯的训练和心理学的一些知识,使得技术惯性思维的理科生能够更多思考技术对于社会和个人的作用。加上彭凯平老师个人的人生阅历很广,所以在授课过程中时刻向我们涉及着数据伦理与哲学的思辨。我们搞技术的时候,往往不去思考技术行为背后的意义与合理性,但是这往往容易暗含问题。


朱思宇举例子解释道:“大数据可以轻易获取用户信息,并据此向用户推送相关信息,这对用户而言是方便的。但是在这门课后,我开始意识到,这种行为也会暴露个人隐私。


朱思宇和同学们在彭凯平老师的课堂上进行了很多关于数据伦理的探讨,这些探讨看似与技术本身无关,但却帮助朱思宇和同学们养成了技术的前期思考。“这时刻提醒着我,在处理数据和分析数据之前,一定要想清楚行为的意义及其背后的社会影响。


除此之外,《大数据实践课》被同学们视为整个大数据项目的灵魂。朱思宇在中铁多式联运有限公司的项目实践,让他在实践的基础上,将所学知识进行了升华。


 “国企对这个实践项目的理解非常到位,他们不会强制同学们做一些无意义的重复工作,而是引导我们完成一个小项目,尝试着为他们解决技术问题。”朱思宇谈起大数据实践项目便滔滔不绝。“我们的项目是识别图表文字,中铁的领导为我们提供了很多真实的表单数据,并充分给予我们信任,让我们大胆探索。

 

640?wx_fmt=png

朱思宇在《大数据实践课》项目中进行答辩

 

在不断的了解过程中,朱思宇的小组共同发现了技术实现的难点所在。整个工作程序复杂,需要识别大量的重要信息,并且他们的表单格式复杂多样、盖章、颜色等问题为识别带来了很大的困难。但是秉持着实践探索的精神,朱思宇和小组成员仍进行了多次尝试,最终做出了一个实现自动提取文字、识别归类的程序,并有着一定的准确率,这是朱思宇第一次用真实的大数据解决产业问题。


这次实践经历让朱思宇切实地明白了,“在实际的生产工作中,技术应该是为目的而服务的,最简单高效、成本最低的技术才是真正实用的好技术。

 

起承:“在协会中帮助更多同学了解大数据”

 

这次实践机会让朱思宇与数据院有了更加深入的了解,于是朱思宇在研二有机会成为了学生大数据协会的会长,开始全心全意地为大数据协会服务。


在大数据协会期间,协会主要举办了几项大活动。在上学期,由明哲师兄带头,开创了“AI自强计划”,报名异常火爆,八场讲座覆盖校内外人数超千人,并于讲座后实现转化任务,举办了转化比赛。而下个学期,协会主要举办了两个活动。一个是“数据故事计划”,旨在收集非大数据专业的同学们如何利用大数据解决自己专业问题的故事。令他印象最深刻的是获得第一名的小组,和另一位往届优秀学长仉立的思路相似,利用农村闲置劳动力做标注数据的工作,并为他们发放劳务,不但利用了留守人口的闲暇时间和精力解决了数据标注劳动成本的问题,同时也使得他们的生活水准有了一定的提高。

 

640?wx_fmt=png

学生大数据协会招新现场

 

另一个活动项目就是近期举办的“中澳大数据比赛”,这是一个由数据院与大数据协会举办的面向全校乃至全社会招募的大数据比赛。“因为我们完全从零开始,尽管过程中有仍存在很多不足,但是我们也会在反馈中提高”。


比赛的消息一出来,同学们参赛热情非常高,初赛报名群中的选手将近200人,线下报名70余人,最后组队成功至少16队。“为了争夺进入决赛的名额,同学们在两天时间内拿到题目、着手做、再到答辩,虽然这是现在数据比赛比较常见的数据马拉松,但是其对同学们的精力和体力都是巨大的考验,他们有的熬夜准备,有的在高铁上仍在提交结果。


朱思宇十分非常触动地说:“深受之前大数据课程的影响,我们在出题方面也会注重数据伦理,将真实的保险公司数据进行数据清洗,以免造成隐私泄漏等问题。这个比赛也算打响了数据院和协会走向国际化的第一枪,积累了很多经验。


“大数据协会自有其使命,要吸引更多同学向大数据使用者转变,让更多同学们学会大数据、懂得大数据,这是协会的目的。


经朱思宇介绍,大数据协会近两年的活动也深深体现着其使命感:“AI自强计划”是为了教会同学实用大数据;“数据故事计划“旨在引导同学、告诉同学有哪些与数据结合的成功案例,供同学们学习。一个是教技术,一个是教方法。而“中澳大数据比赛”是把那些技术比较强和学有所成的同学们进行国际化输送与交流。所以说这三个活动实际上都会有各自的使命,并最终扩大为数据院和大数据协会的影响力。


潜行:“大数据与专业结合,大有所为”

 

“我从一开始就接触了大数据的图像识别领域,乘上了大数据的东风。”朱思宇对于大数据的好处毫不遮掩。“大数据对我帮助最大的一方面是编程能力的提高,一方面是为解决问题开阔思路。


曾经,朱思宇在学术研究中遇到调整模型参数的问题,但是他没有直接采取手动调参的传统办法,而是下了功夫写程序来调整参数。“学习到BP神经网络中反向传播和梯度下降的概念,并将这个方法应用到其他水文模型调整参数的过程中,最后通过机器转化为一组最优的参数,这就是一个大数据的思维过程。


从此,朱思宇更加意识到大数据在其专业领域“大有所为”。朱思宇表示,毕业后到北京大学进行深入研究,希望可以继续踏踏实实学技术,在其他行业里尽可能地结合新技术,不断进行创新。


但同时这类结合也并不是信手拈来,朱思宇指出,“大数据与其他行业的结合绝对是有用的,也绝对是苦难重重的,首当其中的是计算量的问题。


大数据的计算量超级大,都是以天和月为时间单位进行计算,所以大数据面临的常见问题是硬件跟不上算法,大家提出很再好的算法都没法实施,因为硬件速度受到限制,导致很多想法无法落实。


另一个正在面临的问题是对数据的滥用。“大数据虽好,但是不能滥用”,用大数据做研究,分析结果看起来很难很高级,同时质量也参差不齐。这就导致很多研究放到实际生产生活中就效果十分有限。


 “大数据是一个方法,而且是目前看来能够高效解决问题的方法。所以,我十分鼓励大家学习和了解大数据技术。但与此同时,你需要跨越编程和数学的门槛,这就需要大家赋予相应的决心和毅力,最终一定要相信相应的付出会有相应的收获。”朱思宇在专访的最后十分真诚地分享了自己关于大数据学习的看法,

 

640?wx_fmt=png

大数据项目RONG奖学金答辩合影


“虽然是老生常谈,但是通过对大数据的分析,通过无数人对历史的总结,我们发现这个结论和规律是非常正确的,所以经验也可以认为是人体大数据。以史为鉴,可以知兴替,或许就是最经典的大数据方法应用。我会继续在大数据的道路上潜心修行。

 

往期毕业生专访:

付睿:对新事物的追寻之旅 | 优秀毕业生专访

刘念宏:道与术,怎样才能真正学好大数据?

聂聪:数据科学让我为城市规划注入创新价值

姚振宇:数据科学培养下 我成为了那个不安分的"细菌"

张玉萍:数据科学的“融”是学术中的“锦上添花”

王斐:大数据学习助我完成行业撑杆跳

金语泽:大数据交叉思维让我更具创新力

王瑞琰:大数据引领我发现法学“新大陆”

龚亚丽:大数据助我打开传统行业发展新思路

张甜甜:在实践中迈进数据科学领域

张鸿轩:大数据让无形之风尽在掌握 | 优秀毕业生专访640?wx_fmt=jpeg

这篇关于朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/267999

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr