独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...

本文主要是介绍独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:John Kahan - Chief Data Analytics Officer

翻译:吴金笛

校对:和中华

本文约2400字,建议阅读5分钟

本文介绍了一个基于差异隐私技术的数据分享平台。

我们生活在一个充斥着数据的世界,我们每天都在创造越来越多的数据。然而,数据通常包含敏感的个人信息,这些信息可以通过允许重新标识数据所有者的方式对其进行操作。因此,我们需要找到一种方法来分析数据,以释放其全部潜力,同时又不为数据所有者的隐私带来风险。最近人工智能和数据科学的进步使这成为可能,这就是为什么我很高兴宣布,微软与哈佛大学的Gary King,Weatherhead大学的教授、哈佛大学定量社会科学研究所的创始人兼领导者,合作构建一个平台来使用差异隐私以保证数据的私密性,同时使跨部门的研究人员包括学术界、政府和私营部门获得新的可以迅速提高人类知识的见解。

“我们很高兴能与微软合作这个重要的项目。我们的目标不是平衡个人隐私和公众利益,而是消除冲突,实现两者。” Gary King说。

差异隐私,是一项对大型数据集的隐私保护分析而量身定制的技术,于2006年发明,由微软研究员杰出的科学家 Cynthia Dwork和哈佛大学计算机科学教授Gordon McKay带头的,与Kobbi Nissim、Frank McSherry和Adam Smith合作,进行了为期四年的研究。差异隐私使研究人员和分析人员能够从包含个人信息的数据集中提取对公共利益有用的见解,同时提供当今最强大的隐私保护。

这种看似矛盾的结果是通过在计算中引入相对较小的误差或统计噪声来实现的。这些误差大到足以保护隐私,但又小到提供给分析师和研究人员的答案仍然有用。我们的目标是建立一个差异化的隐私平台以提供一个更通用的解决方案,最终可能会有广泛的研究人员和公司对此做出贡献。

“差异隐私体现了对基础研究进行投资的回报,也展示了理论计算机科学作为社会变革工具的巨大潜力。创建一个具有工业实力、公众可用的平台将促进实践和艺术发展” 。Cynthia Dwork说。

以前,研究人员依靠去识别等技术,这是一种在更大的数据集中剥离敏感数据的过程。不幸的是,这种方法不安全,并且很容易被通过重复和复杂的查询以及将其与其他数据结合使用的方法而破坏。

差异隐私背后的数学是复杂的,但如果你想了解更多信息,我建议阅读Cynthia Dwork一篇简短的论文,即隐私数据分析的一个坚实的基础(https://www.microsoft.com/en-us/research/publication/a-firm-foundation-for-private-data-analysis/),它专为广泛的技术受众编写,和另一篇论文,即差异隐私:非技术受众入门(https://dash.harvard.edu/handle/1/38323292),由哈佛大学计算机科学和应用数学教授Salil Vadhan和Vicky Joseph共同编写,他们也将与我们在这个项目上合作。

这些论文很好地总结了差异隐私给那些想要分析敏感数据的人带来的好处:

  • 差异隐私本质上是保护个人信息,就像在分析中没有用到她的信息一样。

  • 差异隐私本质上保证了使用个人数据不会泄露任何特定于她的个人身份信息。在此,特定指的是除非在分析中使用的信息,否则无法被推断出的信息。

  • 差异隐私本质上掩盖了任何个人的贡献,使得无法推断任何特定于个人的信息,包括个人的信息是否被使用。

在微软方面,我们的平台的开发是由Azure AI团队领导, 由微软 AI平台的副总裁Eric Boyd带领, 他说:“这种合作汇集了微软巨大的工程资源和Azure AI以及一些最有才华的数据科学家,工程师和科学家来开发一种数据共享工具,这将从根本上改变我们做研究的方式。我们正在研究来自政府、医疗保健、学术和商业部门的实际情况,这些情况将展示差异隐私如何提供最强大的可能的隐私保护,我们很高兴看到更深层次的见解和新的解决方案。”

一但构建了基本架构并实施治理,我们将向全世界的开发人员、研究人员和公司开放平台和算法,让他们在未来参与构建和支持该平台。我们认为,这种开放的方法对成功至关重要,因为它保证了透明性,使所有人都能信任产出。

我们的项目还建立在微软的同态加密和机密计算的工作之上,这些工作旨在提高云计算的安全性。当将同态加密与差异隐私相结合以确保数据安全时,用户将能够释放其数据的全部潜力,并确信其数据将保持安全和在他们的控制之下。

一旦该平台可用,研究人员将能够使用它使他们自己的数据集可供世界各地的其他研究人员使用。因此,我们可以将各种各样的、以前没有联系的甚至不相关的数据集组合成可以被人工智能分析的海量数据集,这将进一步释放数据的力量。也许更重要的是,由此产生的见解将开辟新的研究途径,使我们能够为人类面临的一些最紧迫的问题开发新的解决方案。

目标是使用我们的集体创新和取得的突破为每一个人服务:对抗癌症和其他疾病,设计工具来帮助有学习障碍者,帮助难民找到生活的地方,以及保护我们的地球不受气候变化的危害,同时保护为我们提供数据的数据所有者的隐私。

该项目也将是Cascadia数据发现计划的一个关键组成部分,该计划旨在建立一个强大的健康数据生态系统,重点是在西北地区开展协作、数据共享和数据驱动的癌症研究。下周我将参加Cascadia创新会议,届时我们将讨论我们在差异隐私方面的工作,以及它如何推进我们的合作伙伴Fred Hutchinson癌症研究中心和其他CDDI合作伙伴正在开展的工作。

我们将在今年秋天宣布如何让更多开发人员和研究人员参与我们的细节。

原文标题:

Microsoft and Harvard’s Institute for Quantitative Social Science Collaboration Develops Open Data Differential Privacy Platform, Opens New Research

原文链接:

https://www.linkedin.com/pulse/microsoft-harvards-institute-quantitative-social-science-john-kahan/?trackingId=f0rsxujTTHapEOmCYHSdfw%3D%3D

编辑:王菁

校对:林亦霖

译者简介

吴金笛,雪城大学计算机科学硕士一年级在读。迎难而上是我最舒服的状态,动心忍性,曾益我所不能。我的目标是做个早睡早起的Cool Girl。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,数据派THU产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

这篇关于独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901449

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

华为鸿蒙HarmonyOS 5.1官宣7月开启升级! 首批支持名单公布

《华为鸿蒙HarmonyOS5.1官宣7月开启升级!首批支持名单公布》在刚刚结束的华为Pura80系列及全场景新品发布会上,除了众多新品的发布,还有一个消息也点燃了所有鸿蒙用户的期待,那就是Ha... 在今日的华为 Pura 80 系列及全场景新品发布会上,华为宣布鸿蒙 HarmonyOS 5.1 将于 7

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock