朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访

本文主要是介绍朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png


[ 导读 ] 清华-青岛数据科学研究院(以下简称“数据院”)自2014年4月成立以来,秉承“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”24字指导方针,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才。

 

由清华大学研究生院、数据科学研究院及相关院系共同设计组织实施的“清华大学大数据能力提升项目”,通过整合建设课程模块,形成大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,提升学生大数据分析能力和创新应用能力。

 

截至2019年6月,已有来自31个院系的271名同学获得了“大数据能力提升项目”证书,其中信息类同学160人,非信息类同学111人。

 

清华的数据科学人才培养究竟有什么特别之处?让我们通过倾听优秀的大数据人才讲述他们与“大数据”的不解之缘,一起寻求答案吧!


640?wx_fmt=png

参加成都八零比赛结束后

 

朱思宇是清华大学17级水利水电工程系硕士,毕业后将前往北京大学遥感所继续攻读博士学位。曾在2018年荣获数据院RONG奖学金特等奖、并成为学生大数据协会会长的他谈到大数据时感触颇深地说:

 


大数据是一个方法,而且是目前看来能够高效解决问题的方法。大数据项目课程的学习和实践,让我认识到大数据与自身专业的结合大有所为,同时也让我看到了其中的问题所在,我将坚持不懈地在这些难点上继续挖掘、创新。


缘起:“课堂与实践是大数据的启蒙之师”

 

在本科刚刚接触科学研究时,朱思宇同学遇到了一个棘手的图像处理问题。当时他根据过往的经验主观判断,并不认为大数据的方法能够解决这个问题。没想到稍加试验,就取得了突破性的进展,“效果特别好,之后我就一直告诉自己,数据和机器的潜力很大。”在不断完善程序和实验后,这项技术应用也最终发表于IEEE-JSTARS。


2017年9月,刚刚成为硕士研究生的朱思宇偶然得知面向研究生开放报名的大数据项目。想起本科期间从大数据中尝到的甜头,以及对编程的浓厚兴趣,以及系里能够抵换本专业学分的优惠政策,朱思宇毫不犹豫地报名并选修了四门大数据项目课程:《大数据系统基础A》、《数据可视化》、《数据思维与行为》和《大数据实践课》。


其中,由清华大学社科学院院长彭凯平教授开办的《数据思维与行为》令他印象深刻。除了因彭教授享誉内外,个人魅力吸引入门以外,在每次其他同学咨询选课时,他总会提到:“这门课应该是大数据课程中小姐姐最多的课程”。


但是经过一段时间的学习,他很快就发现这门课在整个大数据项目的教学体系中的存在很特殊。“首先这门课是少有的文科类数据课程,整个课程设计偏向于思维习惯的训练和心理学的一些知识,使得技术惯性思维的理科生能够更多思考技术对于社会和个人的作用。加上彭凯平老师个人的人生阅历很广,所以在授课过程中时刻向我们涉及着数据伦理与哲学的思辨。我们搞技术的时候,往往不去思考技术行为背后的意义与合理性,但是这往往容易暗含问题。


朱思宇举例子解释道:“大数据可以轻易获取用户信息,并据此向用户推送相关信息,这对用户而言是方便的。但是在这门课后,我开始意识到,这种行为也会暴露个人隐私。


朱思宇和同学们在彭凯平老师的课堂上进行了很多关于数据伦理的探讨,这些探讨看似与技术本身无关,但却帮助朱思宇和同学们养成了技术的前期思考。“这时刻提醒着我,在处理数据和分析数据之前,一定要想清楚行为的意义及其背后的社会影响。


除此之外,《大数据实践课》被同学们视为整个大数据项目的灵魂。朱思宇在中铁多式联运有限公司的项目实践,让他在实践的基础上,将所学知识进行了升华。


 “国企对这个实践项目的理解非常到位,他们不会强制同学们做一些无意义的重复工作,而是引导我们完成一个小项目,尝试着为他们解决技术问题。”朱思宇谈起大数据实践项目便滔滔不绝。“我们的项目是识别图表文字,中铁的领导为我们提供了很多真实的表单数据,并充分给予我们信任,让我们大胆探索。

 

640?wx_fmt=png

朱思宇在《大数据实践课》项目中进行答辩

 

在不断的了解过程中,朱思宇的小组共同发现了技术实现的难点所在。整个工作程序复杂,需要识别大量的重要信息,并且他们的表单格式复杂多样、盖章、颜色等问题为识别带来了很大的困难。但是秉持着实践探索的精神,朱思宇和小组成员仍进行了多次尝试,最终做出了一个实现自动提取文字、识别归类的程序,并有着一定的准确率,这是朱思宇第一次用真实的大数据解决产业问题。


这次实践经历让朱思宇切实地明白了,“在实际的生产工作中,技术应该是为目的而服务的,最简单高效、成本最低的技术才是真正实用的好技术。

 

起承:“在协会中帮助更多同学了解大数据”

 

这次实践机会让朱思宇与数据院有了更加深入的了解,于是朱思宇在研二有机会成为了学生大数据协会的会长,开始全心全意地为大数据协会服务。


在大数据协会期间,协会主要举办了几项大活动。在上学期,由明哲师兄带头,开创了“AI自强计划”,报名异常火爆,八场讲座覆盖校内外人数超千人,并于讲座后实现转化任务,举办了转化比赛。而下个学期,协会主要举办了两个活动。一个是“数据故事计划”,旨在收集非大数据专业的同学们如何利用大数据解决自己专业问题的故事。令他印象最深刻的是获得第一名的小组,和另一位往届优秀学长仉立的思路相似,利用农村闲置劳动力做标注数据的工作,并为他们发放劳务,不但利用了留守人口的闲暇时间和精力解决了数据标注劳动成本的问题,同时也使得他们的生活水准有了一定的提高。

 

640?wx_fmt=png

学生大数据协会招新现场

 

另一个活动项目就是近期举办的“中澳大数据比赛”,这是一个由数据院与大数据协会举办的面向全校乃至全社会招募的大数据比赛。“因为我们完全从零开始,尽管过程中有仍存在很多不足,但是我们也会在反馈中提高”。


比赛的消息一出来,同学们参赛热情非常高,初赛报名群中的选手将近200人,线下报名70余人,最后组队成功至少16队。“为了争夺进入决赛的名额,同学们在两天时间内拿到题目、着手做、再到答辩,虽然这是现在数据比赛比较常见的数据马拉松,但是其对同学们的精力和体力都是巨大的考验,他们有的熬夜准备,有的在高铁上仍在提交结果。


朱思宇十分非常触动地说:“深受之前大数据课程的影响,我们在出题方面也会注重数据伦理,将真实的保险公司数据进行数据清洗,以免造成隐私泄漏等问题。这个比赛也算打响了数据院和协会走向国际化的第一枪,积累了很多经验。


“大数据协会自有其使命,要吸引更多同学向大数据使用者转变,让更多同学们学会大数据、懂得大数据,这是协会的目的。


经朱思宇介绍,大数据协会近两年的活动也深深体现着其使命感:“AI自强计划”是为了教会同学实用大数据;“数据故事计划“旨在引导同学、告诉同学有哪些与数据结合的成功案例,供同学们学习。一个是教技术,一个是教方法。而“中澳大数据比赛”是把那些技术比较强和学有所成的同学们进行国际化输送与交流。所以说这三个活动实际上都会有各自的使命,并最终扩大为数据院和大数据协会的影响力。


潜行:“大数据与专业结合,大有所为”

 

“我从一开始就接触了大数据的图像识别领域,乘上了大数据的东风。”朱思宇对于大数据的好处毫不遮掩。“大数据对我帮助最大的一方面是编程能力的提高,一方面是为解决问题开阔思路。


曾经,朱思宇在学术研究中遇到调整模型参数的问题,但是他没有直接采取手动调参的传统办法,而是下了功夫写程序来调整参数。“学习到BP神经网络中反向传播和梯度下降的概念,并将这个方法应用到其他水文模型调整参数的过程中,最后通过机器转化为一组最优的参数,这就是一个大数据的思维过程。


从此,朱思宇更加意识到大数据在其专业领域“大有所为”。朱思宇表示,毕业后到北京大学进行深入研究,希望可以继续踏踏实实学技术,在其他行业里尽可能地结合新技术,不断进行创新。


但同时这类结合也并不是信手拈来,朱思宇指出,“大数据与其他行业的结合绝对是有用的,也绝对是苦难重重的,首当其中的是计算量的问题。


大数据的计算量超级大,都是以天和月为时间单位进行计算,所以大数据面临的常见问题是硬件跟不上算法,大家提出很再好的算法都没法实施,因为硬件速度受到限制,导致很多想法无法落实。


另一个正在面临的问题是对数据的滥用。“大数据虽好,但是不能滥用”,用大数据做研究,分析结果看起来很难很高级,同时质量也参差不齐。这就导致很多研究放到实际生产生活中就效果十分有限。


 “大数据是一个方法,而且是目前看来能够高效解决问题的方法。所以,我十分鼓励大家学习和了解大数据技术。但与此同时,你需要跨越编程和数学的门槛,这就需要大家赋予相应的决心和毅力,最终一定要相信相应的付出会有相应的收获。”朱思宇在专访的最后十分真诚地分享了自己关于大数据学习的看法,

 

640?wx_fmt=png

大数据项目RONG奖学金答辩合影


“虽然是老生常谈,但是通过对大数据的分析,通过无数人对历史的总结,我们发现这个结论和规律是非常正确的,所以经验也可以认为是人体大数据。以史为鉴,可以知兴替,或许就是最经典的大数据方法应用。我会继续在大数据的道路上潜心修行。

 

往期毕业生专访:

付睿:对新事物的追寻之旅 | 优秀毕业生专访

刘念宏:道与术,怎样才能真正学好大数据?

聂聪:数据科学让我为城市规划注入创新价值

姚振宇:数据科学培养下 我成为了那个不安分的"细菌"

张玉萍:数据科学的“融”是学术中的“锦上添花”

王斐:大数据学习助我完成行业撑杆跳

金语泽:大数据交叉思维让我更具创新力

王瑞琰:大数据引领我发现法学“新大陆”

龚亚丽:大数据助我打开传统行业发展新思路

张甜甜:在实践中迈进数据科学领域

张鸿轩:大数据让无形之风尽在掌握 | 优秀毕业生专访640?wx_fmt=jpeg

这篇关于朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/267999

相关文章

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

pandas数据的合并concat()和merge()方式

《pandas数据的合并concat()和merge()方式》Pandas中concat沿轴合并数据框(行或列),merge基于键连接(内/外/左/右),concat用于纵向或横向拼接,merge用于... 目录concat() 轴向连接合并(1) join='outer',axis=0(2)join='o

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口