独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...

本文主要是介绍独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:John Kahan - Chief Data Analytics Officer

翻译:吴金笛

校对:和中华

本文约2400字,建议阅读5分钟

本文介绍了一个基于差异隐私技术的数据分享平台。

我们生活在一个充斥着数据的世界,我们每天都在创造越来越多的数据。然而,数据通常包含敏感的个人信息,这些信息可以通过允许重新标识数据所有者的方式对其进行操作。因此,我们需要找到一种方法来分析数据,以释放其全部潜力,同时又不为数据所有者的隐私带来风险。最近人工智能和数据科学的进步使这成为可能,这就是为什么我很高兴宣布,微软与哈佛大学的Gary King,Weatherhead大学的教授、哈佛大学定量社会科学研究所的创始人兼领导者,合作构建一个平台来使用差异隐私以保证数据的私密性,同时使跨部门的研究人员包括学术界、政府和私营部门获得新的可以迅速提高人类知识的见解。

“我们很高兴能与微软合作这个重要的项目。我们的目标不是平衡个人隐私和公众利益,而是消除冲突,实现两者。” Gary King说。

差异隐私,是一项对大型数据集的隐私保护分析而量身定制的技术,于2006年发明,由微软研究员杰出的科学家 Cynthia Dwork和哈佛大学计算机科学教授Gordon McKay带头的,与Kobbi Nissim、Frank McSherry和Adam Smith合作,进行了为期四年的研究。差异隐私使研究人员和分析人员能够从包含个人信息的数据集中提取对公共利益有用的见解,同时提供当今最强大的隐私保护。

这种看似矛盾的结果是通过在计算中引入相对较小的误差或统计噪声来实现的。这些误差大到足以保护隐私,但又小到提供给分析师和研究人员的答案仍然有用。我们的目标是建立一个差异化的隐私平台以提供一个更通用的解决方案,最终可能会有广泛的研究人员和公司对此做出贡献。

“差异隐私体现了对基础研究进行投资的回报,也展示了理论计算机科学作为社会变革工具的巨大潜力。创建一个具有工业实力、公众可用的平台将促进实践和艺术发展” 。Cynthia Dwork说。

以前,研究人员依靠去识别等技术,这是一种在更大的数据集中剥离敏感数据的过程。不幸的是,这种方法不安全,并且很容易被通过重复和复杂的查询以及将其与其他数据结合使用的方法而破坏。

差异隐私背后的数学是复杂的,但如果你想了解更多信息,我建议阅读Cynthia Dwork一篇简短的论文,即隐私数据分析的一个坚实的基础(https://www.microsoft.com/en-us/research/publication/a-firm-foundation-for-private-data-analysis/),它专为广泛的技术受众编写,和另一篇论文,即差异隐私:非技术受众入门(https://dash.harvard.edu/handle/1/38323292),由哈佛大学计算机科学和应用数学教授Salil Vadhan和Vicky Joseph共同编写,他们也将与我们在这个项目上合作。

这些论文很好地总结了差异隐私给那些想要分析敏感数据的人带来的好处:

  • 差异隐私本质上是保护个人信息,就像在分析中没有用到她的信息一样。

  • 差异隐私本质上保证了使用个人数据不会泄露任何特定于她的个人身份信息。在此,特定指的是除非在分析中使用的信息,否则无法被推断出的信息。

  • 差异隐私本质上掩盖了任何个人的贡献,使得无法推断任何特定于个人的信息,包括个人的信息是否被使用。

在微软方面,我们的平台的开发是由Azure AI团队领导, 由微软 AI平台的副总裁Eric Boyd带领, 他说:“这种合作汇集了微软巨大的工程资源和Azure AI以及一些最有才华的数据科学家,工程师和科学家来开发一种数据共享工具,这将从根本上改变我们做研究的方式。我们正在研究来自政府、医疗保健、学术和商业部门的实际情况,这些情况将展示差异隐私如何提供最强大的可能的隐私保护,我们很高兴看到更深层次的见解和新的解决方案。”

一但构建了基本架构并实施治理,我们将向全世界的开发人员、研究人员和公司开放平台和算法,让他们在未来参与构建和支持该平台。我们认为,这种开放的方法对成功至关重要,因为它保证了透明性,使所有人都能信任产出。

我们的项目还建立在微软的同态加密和机密计算的工作之上,这些工作旨在提高云计算的安全性。当将同态加密与差异隐私相结合以确保数据安全时,用户将能够释放其数据的全部潜力,并确信其数据将保持安全和在他们的控制之下。

一旦该平台可用,研究人员将能够使用它使他们自己的数据集可供世界各地的其他研究人员使用。因此,我们可以将各种各样的、以前没有联系的甚至不相关的数据集组合成可以被人工智能分析的海量数据集,这将进一步释放数据的力量。也许更重要的是,由此产生的见解将开辟新的研究途径,使我们能够为人类面临的一些最紧迫的问题开发新的解决方案。

目标是使用我们的集体创新和取得的突破为每一个人服务:对抗癌症和其他疾病,设计工具来帮助有学习障碍者,帮助难民找到生活的地方,以及保护我们的地球不受气候变化的危害,同时保护为我们提供数据的数据所有者的隐私。

该项目也将是Cascadia数据发现计划的一个关键组成部分,该计划旨在建立一个强大的健康数据生态系统,重点是在西北地区开展协作、数据共享和数据驱动的癌症研究。下周我将参加Cascadia创新会议,届时我们将讨论我们在差异隐私方面的工作,以及它如何推进我们的合作伙伴Fred Hutchinson癌症研究中心和其他CDDI合作伙伴正在开展的工作。

我们将在今年秋天宣布如何让更多开发人员和研究人员参与我们的细节。

原文标题:

Microsoft and Harvard’s Institute for Quantitative Social Science Collaboration Develops Open Data Differential Privacy Platform, Opens New Research

原文链接:

https://www.linkedin.com/pulse/microsoft-harvards-institute-quantitative-social-science-john-kahan/?trackingId=f0rsxujTTHapEOmCYHSdfw%3D%3D

编辑:王菁

校对:林亦霖

译者简介

吴金笛,雪城大学计算机科学硕士一年级在读。迎难而上是我最舒服的状态,动心忍性,曾益我所不能。我的目标是做个早睡早起的Cool Girl。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,数据派THU产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

这篇关于独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901449

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

Linux实现查看某一端口是否开放

《Linux实现查看某一端口是否开放》文章介绍了三种检查端口6379是否开放的方法:通过lsof查看进程占用,用netstat区分TCP/UDP监听状态,以及用telnet测试远程连接可达性... 目录1、使用lsof 命令来查看端口是否开放2、使用netstat 命令来查看端口是否开放3、使用telnet

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I