联系我们
返回上一页

区块链给大数据带来的价值和实现路径

林哲明 福建博泉哈希科技有限公司创始人兼首席执行官

 

一、元宇宙——Metaverse

(一)元宇宙的构成要素

元宇宙到底是什么?其实也没有太多人能讲得很明白,且不同人有不同的理解。它大致和下面这些要素有关:VR、AR、区块链、NFT、虚拟身份及数据。目前,VR、AR的技术还非常粗糙,我们现在的技术实力离科幻电影中看到的VR还有很大的差距。所以,人们通常会高估新技术的短期效益,却低估了新技术的长期影响力。而我们现在就处于高估了新技术的短期效应的阶段。

(二)技术的进步使可信数据得以重载使用

技术的进步让可信数据得以重载和复用。在传统VR、AR应用里,这些数据是被割裂的,因为由不同运营商自主提供,并没有形成可以在不同的虚拟空间中进行数据确权、流转、重载和复用的模式,导致在虚拟空间中创造的虚拟产品都只能局限在当前虚拟空间中。简单来说:每个虚拟空间都是一个平行世界,他们之间很难有交集,但随着区块链技术加入,使得不同虚拟空间中的数据得以流动。

 

二、Web3

(一)Web3是什么?

web1.0时代,大家用用户名和密码登录;web2.0时代,则是用各种用户身份的管理者账户登录,包括Google、Facebook等,这时用户不需要在当前网站创建自己的账号;到了web3时代,我们用钱包登陆,即应用能够连接钱包。

事实上,web3是数据所有权的争夺。在web2.0时代,由于和社交媒体网站及一些身份的托管商合作,你的数据是由第三方机构持有。在web3时代,你的数据由你的钱包所拥有;钱包是一种基于本地、由用户自主掌握数据的管理方式,不需要借助可信第三方托管。所以,web3时代在于数据所有权的争夺,这是一种结合了基于区块链去中心化的关于新一代互联网的想法。

(二)Web3是要革了数据霸权的命

此前,数据全部由可信第三方保存。由于技术限制,业务工作中无法在不保留对用户个人信息追踪的情况下对用户提供的信息产生信赖,所以只能由他们自己掌握数据。以滴滴出行为例,滴滴可能会掌握你的生活习惯、工作单位、上下班的路径等信息,传统做法比较难避免这一点;但理论上,可以不让滴滴掌握这些信息。作为一个打车软件,它只需匹配我们的出行需求:从a点到b点,并不需要知道我是谁,我可以来之即用、用完即走;这次的打车记录和上一次之间不需要具有关联性。因此,在web3引入以后,类似这样的服务可能会演变为用户每一次面对网站时,选择给出自己最小价值的信息来识别自身需求。用户只需告诉滴滴从哪到哪,无需其他信息,而用户给滴滴的标识则是一个假名化身份,这个身份能证明是我在当时打了车即可。

通过web3时代的技术,我们确实能够在保护个人隐私的情况下,向第三方独自证明,在这种情况下就不存在大数据了。

 

三、大数据

(一)如今的“大数据”是集中采集所有数据

所谓的大数据并不是把大量数据放在一起。因为尽可能地采集更多信息和数据,有可能突破隐私保护边界、侵犯法律以及破坏用户的个人隐私。同时,这也会增大数据泄露的危害。由于这些数据是集中存储的,一旦出现泄漏,包括技术与人为的风险,都会增大个人信息泄露的危害。

数据的价值越高,对数据犯罪活动目标吸引力就越大。堂而皇之地告诉别人:这里有一大片数据金矿,在传统情况下,就变成了用免费的服务换取用户数据,形成一种错误的商业激励。因为,当商家用免费服务换取数据时,实际上他认为是自己拥有了这些数据,一方面,极大地影响了数据的复用能力;另一方面,形成一种错误的商业气象。商家能够自身采集的数据只是一小部分,这些数据的价值也较低。当商家采集到的数据所产生的商业价值较低时,商家给用户能提供的服务也可能要低于这种数据价值,所以,这种商业激励是存在弊端的。

数据引入了竞争壁垒,最具有网络效应的最终可能形成数据霸权。即在商业竞争中,如果某个商业实体掌握了更全面的数据,那么,掌握这些数据的边际效应将随着他所掌握数据的增加而增加。它会千方百计地想要掌握更全面的数据,让这些数据成为他们的商业秘密,最终形成一种霸权,进 而影响竞争,形成垄断。

(二)不注意隐私保护的大数据是数据大劫案

各大企业都在想方设法地获取更全面的用户数据,给用户进行画像。不注意隐私保护的大数据是数据大劫案,因为谁抢到了就是谁的,大家都在跑马圈地。我认为,这不是真正的大数据。

(三)大数据需要联邦学习

大数据的利用需要进行联邦学习,这样才能对数据进行隔离,避免让数据泄露到外部,从而满足用户隐私保护和数据安全的需求,同时也能保证模型的质量估算比割裂独立的效果好,因为它的数据更大、更全面。参与者的地位对等,能够公平合作,更能保证参与各方是在保持独立性的情况下进行加密交换,并获得数据结果。

(四)联邦学习的问题

基于隐私保护的要求,联邦学习的数据来源分别属于不同参与者,甚至是互相竞争的实体。但联邦学习的过程更容易受到投毒攻击。攻击目的包括:一种是模型失败投毒攻击(Model failure poisoning attack),攻击者的目标是使模型不可用。即攻击者的目标是任意的,他们一致目标是使分类器给出错误预测;另一种是更高级的错误投毒攻击(Target error poisoning attack),这种投毒攻击会使模型的预测错误,但目标错误投毒攻击会迫使模型将特定类(源标签)错误分类为另一个目标类(目标标签)。

 

四、区块链

(一)为什么需要区块链

在元宇宙和web3当中,区块链是唯一可信来源的数据总线,其根本是为了解决数据的问题,而数据的运用在分散的实体中,只有通过联邦学习才可能让数据得到一种更有价值的协同,给不同来源的用户打上不同标签。为防止投毒攻击,我们需要可信的数据来源,因此,区块链成为唯一可信来源的数据总线。

数据的生成规则通过区块链上的共识机制进行公开,这带来了数据生成过程的可信,而不仅仅是对数据结果和数据供应方可信。所以,对数据的开放和去信任中介的验证方式,带来了无许可的协同和创新。如果我们把它放到医疗大数据里,患者的数据是匿名化的,患者可以自主联系到既往病史、诊疗记录、服药记录等医疗数据。在这种情景下,若有医疗研究机构愿意花钱去买这些数据,以实现研究创新。用户则可以自主提供这些有效数据,因为这是他们和医院之间形成的记录,很难造假。

(二)区块链可以解决的问题

区块链技术的身份系统鉴别和鉴权,分离了用户数据和身份来保护用户隐私。但同时又会产生真正的实名数据,它允许数据由不同实体掌握,又能互相信任和验证。这种分布式数据,允许我们对数据进行更全面的权限管理。因为数据存在有产权的个体手里,他可以同时对数据来源进行验证,在进行联邦学习时可以防止参与方的攻击行为;也可以引入身份体系,增大在数据生成记录时的错误投毒攻击成本。即数据无法批量造假。这些是在引入区块链后,它可能提供的帮助。

(三)错误的区块链方案的局限性

第一,错误的区块链方案共识体系是基于数据账本的共享,每个成员都拥有所有数据(“区块链的数据需要公开”)。这带来一个误解:区块链的数据需要在联盟成员内公开,其实这是错的。

第二,只有审查了数据账本中的所有事务才可以达到可信,仅使用私有链或联盟链,对节点外的使用者不能保证其不可篡改性,能解决的信任场景十分有限。

第三,数据由服务商和节点掌握而非用户掌握,强调了去中心化但又缺乏分层,导致用户依然需要有强信任的第三方。

(四)合理的区块链方案设计

首先,要有公开低验证成本的共识机制,允许每个参与个体进行数据完整性的校验;

其次,要具备向参与节点外进行独立证明和脱离可信第三方进行验证的能力;

第三,要有良好的分层结构,用户和节点数据服务分离又可以保护隐私,在共识校验的过程中不用接触到任何原始数据;

第四,要有设计合理的隐私保护体系,用数字摘要技术隔离原始信息和校验信息;

第五,原始数据要由参与的独立对等方保存,且仅在利益相关方中进行交换。

(五)区块链和大数据的产权

数据产权应属于创造数据的一方,Web3革命尝试帮助用户从服务商手中夺取数据产权。区块链带来了在可信框架下的隐私保护,让数据既能够在产权方独立保存,又能在需要时证明其真实性。大数据服务商在未来将扮演触达用户数据的通路角色,通过在数据交易市场交易的方式使数据产权方获益并尽量提供恰好足够的数据。也就是说,我们不是把数据放在大数据服务商手里,而是可以通过大数据服务商找到用户,获取他们的授权。

引入联邦学习可以对不同来源的数据源进行脱敏计算和标签化而不需要交换数据。对数据产权的保护越好,隐私性越强,越能产生更有价值的私密数据;只有保障了对数据的公平获取权,才能降低数据垄断的可能。

演讲整理:张壬

责任编辑:何晓凤

来源:TGES2021(第十七届)中国金融风险经理年度总论坛:数据管理、信息安全与风险管理(一)(1月)

林哲明:区块链给大数据带来的价值和实现路径
时间:2022-01-08
演讲题目:区块链给大数据带来的价值和实现路径
专家简介:福建博泉哈希科技有限公司创始人兼首席执行官,毕业于中国人民大学经济学院,经济学学士;曾就职于计世网、Apple、百度等公司,有多年的互联网产品设计和运营经验
林哲明-区块链给大数据带来的价值和实现路径 林哲明-区块链给大数据带来的价值和实现路径 林哲明:区块链给大数据带来的价值和实现路径
请登录!