“隐私计算”:助推“小数据”时代走向“大数据”时代

发布时间:2019-10-29 13:27:54   来源:大数据   点击:
2019年1月3日,算力智库研究院发布了《基于MPC的隐私计算研究报告》。报告指出,随着数字经济时代的到来,数据共享和数

2019年1月3日,算力智库研究院发布了《基于MPC的隐私计算研究报告》。报告指出,随着数字经济时代的到来,数据共享和数据流通已成刚性业务需求,与此同时,隐私保护和数据高效流通之间的矛盾日益突出。

在刚刚过去的2018年,数据安全问题屡见不鲜:2018年12月,Facebook又一次曝出用户数据泄露事件,6800万用户私人照片被泄露,而类似事件当年一共发生了三次;2018年8月,华住酒店5亿条公民个人信息被泄露;同月,快递巨头顺丰3亿条数据也疑似流出。

“大数据时代,几乎每个人都处于‘裸泳’状态。”一名业内人士对《国际金融报》记者表示,“数据隐私保护已成为当下的重要难题。”

据了解,上述报告分析了以MPC为代表的隐私计算对数据安全和数据孤岛问题的解决之道及应用场景。对此,1月3日当天,《国际金融报》记者独家专访了报告编写成员——万向区块链董事长肖风和矩阵元CEO孙立林。

强制采集弊端多

有监测统计,2017年全球的数据总量为21.6ZB(1个ZB等于十万亿亿字节),目前全球数据每年的增长速度为40%左右,预计到2020年全球的数据总量将达到40ZB。另据中国信息通信研究院调研数据,2017年我国大数据产业规模为4700亿元,同比增长30.56%。未来三年,大数据产值预计将从2018年的6200亿元增长到2020年的超过1万亿元,年复合增长率为17.66%,处于快速增长阶段。

“数据已成为企业和国家具有战略价值的核心资产。”在接受《国际金融报》记者采访时,孙立林表示,“然而,目前互联网企业和大数据公司通过提供免费服务的方式来过度采集消费者信息,然后将信息进行价值变现,这种模式对消费者既不公平也不安全,应该被改变。”

据悉,目前许多商业网站在用户注册使用时,都会采集包括身份证账号在内的大量个人信息。多位人士对记者表示,“下载一款APP,必须允许开通个人的电话权限、存储权限以及位置权限等,如果不允许就不能下载使用。”

孙立林称,这种强制采集的方式存在两方面弊端:一方面容易造成数据隐私泄露,另一方面也侵犯了消费者个人的数字资产所有权。“商业机构只能是托管用户数据,在合规性范畴内可以对数据进行变现交易,但所有权并不属于机构本身,这也是目前商业机构普遍存在的理念误区,即认为所采集的用户数据归机构所有。”

“事实上,数据所有权归用户本身所有。”孙立林表示,“在这方面,中国目前还存在立法滞后现象,但就全球而言,相关的法律法规已开始启动。”

2018年5月25日,欧盟正式颁布了《一般数据保护条例》(General Data Protection Regulation,缩写为GDPR),其中规定,数据主体授权必须是其被告知情况下自愿并特定给出的明确表示;同时还规定,企业作为数据控制者,必须在事前数据采集和事后数据泄漏两个环节履行告知义务。对企业违法行为将进行惩处,行为轻微的罚款1000万欧元或全年营收的2%,行为严重的则罚款2000万欧元或全年营收的4%。

孙立林表示,GDPR的出台,意味着全球范围内第一部真正意义上的隐私保护立法宣告落地,弥补了数字化时代隐私保护的法律空白,在全球范围内也具有标志性意义。

“孤岛”必然数据“小”

对于屡有发生的数据泄漏现象,孙立林称,这缘于采集数据的商业机构在隐私安全保护上面临技术难题。

“目前解决数据隐私安全只有两种办法:一种是基于MPC的隐私计算;另一种是基于可信执行环境的安全体系方法。现在的技术应用以后者为主,而事实证明这种技术系统已经被攻破。”孙立林表示,“从我们的判断来看,隐私计算的主导技术方案,几乎是唯一可行的。”

据了解,所谓MPC,是指安全多方计算,它是隐私计算的技术协议之一,主要是多方进行安全的联合计算。该协议通过密码学的方法将输入的数据进行加密变换,同时将算法本身进行变换,从而有助于保护数据的隐私性。

肖风对《国际金融报》记者表示,隐私计算并不是一个全新的概念,而是一个世界级的话题。“隐私计算最早是伴随着人工智能的兴起而出现,随着数据价值的日益彰显,人们数据隐私保护意识的日渐增强,隐私计算才逐渐被重视。”

肖风认为,目前大数据在利用方式上,除了数据泄漏问题,还有其他三个亟待解决的问题:一是,并非所有的数据都存储在互联网平台,大量储存在其他地方(如医疗机构)的数据流动性不够,没有充分发挥应有的价值;二是,诸多敏感数据并不允许以普通的技术手段共享利用,需要新的隐私保护技术手段来提高数据利用率;三是,当前互联网企业在数据共享方面缺乏足够的交互性。

“比如,国内社交数据腾讯最强,电商数据阿里最强,但数据持有方依然坚守着‘数据孤岛’,不愿进行数据共享。他们既担心数据共享可能会使自身丧失核心竞争力,也担心可能存在法律风险。”肖风表示。

孙立林则提出,全数字化世界面临的最大挑战是:“盲人摸象”。

“当前没有一个机构能够掌握全面的数据,数据使用方需要向多个机构获取多维度数据,而各个机构又不愿透露过多的数据给数据使用方,”孙立林称,“敏感隐私数据难以商业化的现象,加剧了人工智能企业可用数据匮乏的问题。”

孙立林表示,马云曾提出一个“DT (Data Technology)时代”的概念,他认为目前还不是真正的DT时代,今天的大数据本质上都是小数据,它是零散的、片面的、孤立的,数据存在于不同的机构,彼此之间是数据孤岛。即便是AI深度学习也只能用于单一的、局部的数据变量,它无法作用于全域数据。

孙立林认为,以MPC为代表的隐私计算技术或许是一个解决方案,包括HE(同态加密)、VC(可验证计算)、SS(秘密分享)等密码学方法,正在被一些企业所接受并运用到大数据——特别是敏感隐私大数据的处理上。

“目前各个数据机构就像一个又一个孤岛,他们是割裂式的、块状化的,无法建构真正的大数据流通,而以MPC为代表的隐私计算就像一座隐形的桥梁,将割裂的数据孤岛融为一体、彼此互通,那时候(隐私计算被广泛运用的时候)才是真正的DT时代的开始。”孙立林表示。

------分隔线----------------------------