您的位置: 首页 >互联网 >

改变的数据集仍然可以提供统计完整性并保护隐私

2019-07-09 16:19:46 来源:

据统计学家称,合成网络可能会增加某些数据的可用性,同时仍能保护个人或机构的隐私。宾夕法尼亚州立大学统计学家表示,综合网络可能会增加某些数据的可用性,同时仍能保护个人或机构的隐私。“我的主要兴趣在于开发方法,以便能够以有助于科学发现的方式更广泛地共享机密数据,”宾夕法尼亚州Eberly科学学院统计学副教授和研究生教育副院长Aleksandra Slavkovic说。“能够以最小的可量化风险共享机密数据,以发现敏感信息并确保统计准确性和完整性,这是我们的目标。”

Slavkovic通过跨学科合作找到了解决这一数据隐私问题的方法,特别是与计算机和社会科学家合作。她的研究重点是各种数据,包括捕获个人或机构等实体之间关系信息的网络数据。她在华盛顿特区举行的2019年美国科学促进会年会上报告了她今天(2月16日)提供满足隐私差异概念的合成网络的方法。

差异隐私为个人的隐私损失提供了数学上可证明的保证。

科学家希望获得他人收集的数据用于他们的研究,但这种访问也可能损害个人隐私,即使在删除所谓的个人身份数据之后也是如此。

“大量的辅助数据是罪魁祸首,”斯拉夫科维奇说。“随着数据收集和记录联动的方法和技术进步,更容易访问可能与手头数据集相关的各种数据源,以及资助机构分享数据的要求,数据隐私的风险正在增加。但是,找到好处管理隐私损失的解决方案对于实现可靠的科学发现至关重要。“

例如,关于HIV药物的药物试验的公开信息将表明谁在治疗组中以及谁在对照组中。治疗组仅包含被诊断患有HIV的人,即使数据所有者从该数据集中隐瞒了个人详细信息,也会保留一些识别信息。由于如今在社交媒体和其他数据集中可以获得如此多的信息,因此可以连接点并识别人,从而可能揭示他们的HIV状态。

“连接两个数据集的技术,比如选民记录和健康保险数据,已大大改善,”斯拉夫科维奇说。“在最早的调查结果之一中,Latanya Sweeny(现在在哈佛大学)表明,通过链接这些类型的数据,您可以根据他们的出生日期,性别和5位数确定1990年美国人口普查中87%的人。最近,研究人员使用推文和相关的Twitter元数据来证明他们能够以96.7%的准确率识别用户。“

斯拉夫科维奇指出,不仅数据包含在数据库中的人或机构,而且数据库外的人也可能直接或通过关联侵犯隐私。数据集中的信息与社交媒体上的信息之间的联系可能导致严重的隐私后悔 - 如果被披露,诸如艾滋病病毒感染状况或性取向等可能会产生严重后果。

虽然隐私很重要,但收集的数据集构成了研究人员必不可少的信息来源。目前,在某些情况下,当数据特别敏感时,研究人员必须亲自前往数据存储库进行研究,使研究更加困难和昂贵。

Slavkovic对网络数据感兴趣。显示人员或机构 - 节点 - 以及节点之间连接的互连性的信息。她的方法是创建略微改变的镜像网络数据集,其中一些节点移动,连接移位或边缘改变。

“目的是创建满足严格的差异隐私要求的新网络,同时从原始网络中捕获大部分统计特征,”Slavkovic说。

这些合成数据集可能足以让一些研究人员满足他们的研究需求。对于其他人来说,在必须转到数据存储站点之前测试他们的方法和假设就足够了。研究人员可以在等待使用其存储库站点中的原始数据的许可时测试代码,进行探索性研究以及可能的基本分析。

“我们不能满足所有统计分析对相同类型的改变数据的要求,”斯拉夫科维奇说。“有些人需要原始数据,但其他人可能会使用合成网络这样的合成数据。”

精彩推荐

图文推荐

点击排行

Copyright 平安财经网 All Rights Reserved 版权所有 复制必究

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。