首页 > 科技 > 同盾科技联邦学习技术加持 让数据“可用不可见”

同盾科技联邦学习技术加持 让数据“可用不可见”



近日,在诸多内外因素的共振下,中央重磅推动“新基建”部署,这场自上而下的大工程,将深刻影响中国未来几十年的经济版图。其中,大数据生态的建设情况将是决定信息数字化的核心因素。固本方能培元,没有安全奢谈发展,没有安全的发展就如同将大楼建立在沙子之上。数据安全与发展之间需要找到一个的平衡点,而 “可用不可见”这一具有革命性的技术理念或将是撬动这个平衡点的有力杠杆。

“可用不可见”其核心有两层含义:数据的可用性和数据的不可见性。即在充分保护数据和隐私安全的前提下,实现大数据价值的转化和提炼。

目前的人工智能本质上是数据智能,也就是用大数据来训练计算模型支撑业务应用。但是现实中数据是各机构或个人的核心资产,数据孤岛现象普遍存在。近两年,我国在分别出台了《数据安全管理办法(征求意见稿)》和《信息安全技术个人信息安全规范》修订版),数据直接共享面临更严峻的合法合规的考验。如何充分利用各方的数据,让数据对外开放,进行智能化服务,这是数据可用关心的重点。

但不可否认的是,数据可用性和不可见性,在传统的计算模式下是很难实现的。越来越多的人认识到,数据安全建设将成为行业企业发展的根本前提,实现数据的“可用不可见”将有赖于更多的科技企业迈出创新的步伐。

数据“不可见” |全面的脱敏和去标识化

作为国内领先的智能风控与分析决策服务商,同盾科技在数据“可用不可见”领域的探索取得了很多前沿性成果。

首先是“数据的不可见”的革新。同盾将所有敏感数据进行了全面而彻底的脱敏、去标识和不可逆化,从源头上避免了敏感的原始数据泄露风险,充分保护用户的隐私信息和客户机密。从而为后续智能分析和价值挖掘,提供一个阳光、可信和安全的环境。

为此,同盾寄出了一套组合拳。

1、全面的脱敏和去标识化。依照《信息安全技术 个人信息去标识化指南》和《个人金融信息保护技术规范》的要求,同盾将合规列为当前所有工作的重中之重,并动员和联合多个部门发起了 “总攻”。

目前,阶段性成果开始显现。

第一,彻底完成了云端API对敏感数据的去标识化。同盾提供全方位的加解密和数字签名体系,可供数据方自主选择针对隐私数据的加解密安全措施。

第二,彻底实现了云端SaaS服务系统(决策引擎、指标平台等)敏感数据去标识化,并建立起从业务规则到底层数据的自上而下的去标识化体系,业务场景中进行的决策、计算各个环节,无需依赖敏感数据原文,基于脱敏和去标识化的数据,完成业务目的。

第三,完成数据中台的改造,实现敏感数据去标识化。当内部员工加工处理数据时,无法接触敏感数据的明文。对数据访问的所有场景进行严格的管控,根据“业务需要”和“最小权限”原则,对访问数据的个人、应用程序实施注册制,严格控制和分配访问权限。

2、全方位的加密算法支持。同盾提供全方位的加解密和数字签名体系,可供外部客户、数据使用方自主选择针对隐私数据的加解密安全措施。同盾对客户隐私数据计算所需的加密及脱敏服务进行灵活组合,支持国密和国际标准算法,如RSA、SHA256等算法。

3、完善的DMZ区建设。对于必须用到明文的数据处理中间环节,通过调用位于DMZ区(非军事化隔离区)的受严格权限管控的解密服务,通过技术手段限制只能在内存中使用明文进行计算,并且详细记录调用方操作日志(数据访问日志、业务操作日志、账号管理日志、认证登录日志、权限管理日志),对操作行为进行安全审计。数据处理平台支持LDAP、Kerberos协议,基于ACL的用户权限管理,实现细粒度的用户权限控制,确保数据访问安全。

联邦学习|打破数据孤岛,让不流通的数据也能用起来

解决数据安全和隐私保护仅是第一步,“可用性”才是大数据价值的终极体现,“可用不可见”的革命性在于能在保证不同机构间数据“不流通”的前提下,实现“信用”和“信任”的流通,实现价值的共享,从而打破不同主体间的合作藩篱。

那么在“不可见”的前提下,是如何实现“可用”的目标呢?

同盾科技基于联邦学习提出了“知识联邦”的理论框架体系,支持从信息层、模型层、认知层和知识层四个层级进行联邦,以实现数据可用不可见。

联邦学习是一种采用分布式的机器学习/深度学习技术,参与各方在加密的基础上共建一个公共虚拟模型(可以相同也可以不同),训练和交互的全过程各方的数据始终留在本地,不参与交换和合并。参与各方没有一方能拥有所有的数据,也没有一方拥有所有的模型,共用开放数据,而不享有数据,能最大化保护数据安全和数据隐私。

在“知识联邦”框架中,信息层通过安全多方计算在密文空间上直接进行计算或学习,进而提取或发现知识;模型层联邦与传统的联邦学习相似,基于模型加密交互共创知识,并实现知识共享;认知层对同/异构数据进行认知学习之后进行集成或多模态融合,进而生成复杂的知识网络;知识层对分布的知识进一步学习提炼,实现基于知识的表达推理及智能决策。简单的讲,智邦平台的具有以下技术创新:

l 平台和算法都是基于自研“知识联邦”体系;

l 首次尝试并成功使用联邦神经网络解决跨特征联邦学习问题;

l 针对实际场景中普遍存在的小样本问题,成功实现联邦元学习;

l 梯度、参数加密方式和压缩方式完全自主研发,具有独创性;

l 创新性提出参与方贡献评价机制,评估参与方数据贡献。

大数据安全生态完善是一个系统工程,技术创新、制度建设、法律法规的创新是缺一不可、相辅相成的,“可用不可见”也仅仅是为这个系统工程打下了第一根桩基,后续的发展仍有很多创新的空间,比如能否能推出更加可具操作性的法律法规,让企业的边界更加清晰;是否可以将一些脱敏、加密、不可逆的数据,都保存和放置到政府认证的云平台和公共平台之上,让每一次数据的流通和使用受到政府监管,是否需要建设一个社会性的大数据平台等,总之,数据安全建设永远在路上,我们需要更有想象力。

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/350552.html