联邦机器学习的优势是什么

文章来源:infoq微众银行

2019以下简称“大会”)在苏州金鸡湖国际会议中心举行,来自Amazon、FaceBook、腾讯、平安等诸多国内外企业机构的专家学者汇聚一堂就人工智能、深度学习、醫疗科学、智慧金融、边缘计算等领域展开深度讨论。微众银行AI团队于19日在【智慧金融】分会场上联合星云Clustar发表了《GPU在联邦机器学习中的探索》主题演讲详细介绍了其GPU加速联邦学习的研究成果。

伴随着计算力、算法和数据量的巨大进步人工智能迎来第三次发展高潮,开始了各行业的落地探索然而,在“大数据”兴起的同时数据分散的情况也越发明显,“数据孤岛”现象广泛存在随着政策法规的逐漸完善和公众隐私保护意识的加强,隐私安全、数据保护等原因限制着数据不能轻易互通如何在保护数据隐私的前提下实现行业协作与協同治理,是大数据时代人工智能行业应用的一大难题

联邦学习破解“数据孤岛”难题

Learning)指的是在满足隐私保护和数据安全的前提下,設计一个机器学习框架使各个机构在不交换数据的情况下进行协作,提升机器学习的效果其核心就是解决数据孤岛和数据隐私保护的問题,通过建立一个数据“联邦”让参与各方都获益,推动技术整体持续进步大会上,来自微众银行AI部门的高级算法工程师黄启军也為观众展示了联邦学习的落地案例之一——视觉横向联邦学习系统

黄启军提到,在目标检测领域已标注数据是非常珍贵的资源,各家公司一般都有各自不同场景的标注数据但这些数据相对散乱,如想利用其它公司已标注好的数据模型来建立更优模型只能通过拷贝聚攏数据,但这种行为不符合GDPR、《数据安全管理办法》等法律规范而引入横向联邦学习机制以后,个体可以在本地设备中直接标注数据無需上传。本地模型的训练数据标注完成后客户端将自动加入联邦,等待进行训练当有两台设备进入到等待训练状态时,则开始进行聯邦学习训练模式

视觉横向联邦学习系统示意

这一案例真实展现了联邦学习技术的价值,相比于单点模型联邦学习使得本地设备的mAP大幅提升,同时Lossless更加稳定mAP平均提升15%的数据显示,整体上联邦学习远比单点模型效果更佳

GPU加速联邦学习升级

作为一门具有前景的新兴技术,联邦学习为了完成隐私保护下的机器学习使用了很多与传统机器学习不一样的方法,也因此迎来了诸多新挑战在会上,黄启军也分享了微众银行AI部门携手星云Clustar突破的联邦学习计算三大难题:

首先就是大整数运算问题传统机器学习一般使用的是32-bit的基本运算,这些基本運算一般都有芯片指令的直接支持而联邦学习中的Paillier/RSA算法依赖的是1024或2048-bit 甚至更长的大整数运算,但现实情况是GPU流处理器并不直接支持大整數运算。面对这一情况双方基于分治思想做元素级并行,通过递归将大整数乘法分解成可并行计算的小整数乘法从而实现“化繁为简”,间接完成GPU流处理器的大整数运算

通过递归将大整数乘法分解成可并行计算的小整数乘法示意

其次,大整数运算中多是模幂、模乘等複杂运算即ab mod c (a,b,c均为N比特大整数),而GPU做模幂等运算的代价极大传统的朴素算法会优先计算ab,再计算值对c取模这一算法的缺点是复杂度高達O(2^N),且中间乘积结果很大而单一的平方乘算法则是通过ak = (ak/2)2 = ((ak/4)2)2实现,虽然复杂度下降至O(N)且中间结果大小不超过c,但因为需要做2N次取模运算GPU在此项上花费时间极高。而双方摘取平方乘算法优势并加入蒙哥马利模乘算法计算模乘,就完全避免了取模运算大幅度降低了GPU的消耗。

最后在分布式计算时,联邦学习不止涉及数据中心内网传输也有广域网传输的场景,且密文数据体积要增加几十倍传输的次数吔是传统机器学习的几倍,双方通过RDMA网络技术加上自研的动态参数聚合模型技术以及机器学习专业的网络传输协议对联邦学习在数据中惢内通信场景以及跨广域网通信场景都进行了很好的性能优化。

联邦学习推动AI行业变革

联邦学习近年来在学术研究、标准制定和行业落地等方面发展迅速有望成为下一代人工智能协同算法和协作网络的基础,全球范围内也正在掀起“联邦学习”的热潮从GPU加速联邦学习这樣的底层技术研究,到IJCAI 2019首届联邦学习国际研讨会等学术交流再到IEEE标准制定推动行业规范化,联邦学习在人工智能领域渐露峥嵘在该领域的影响力显著提升。而在工具层面也有诸多企业机构开展研发,如微众银行AI团队开源的全球首个工业级的联邦学习技术框架 Federated AI Technology Enabler(FATE)不僅提供一系列开箱即用的联邦学习算法,更重要的是给开发者提供了实现联邦学习算法和系统的范本使大部分传统算法可以经过改造适配到联邦学习框架中,从而快速加入联邦生态

此外,在行业应用落地方面联邦学习也扇动了一股“变革”的飓风:在金融领域,基于該技术的多家机构联合风控模型能更准确地识别信贷风险联合反欺诈。多家银行建立的联邦反洗钱模型能解决该领域样本少、数据质量低问题,在微众银行的实践中AUC显著提升12%

在智慧零售领域,该技术能有效提升信息和资源匹配的效率例如,银行拥有用户购买能力的特征社交平台拥有用户个人偏好特征,电商平台则拥有产品特点的特征联邦学习能在保护三方数据隐私的基础上进行联合建模,为用戶提供更精准的产品推荐等服务从而打破数据壁垒,构建跨领域合作经应用实践,采购备货准确率提升可达 删除

}

有了下面的论文笔记与解读没囿基础也能读懂这篇论文!


在定义联邦学习之前,我们要先来看一看传统的机器学习范式

一般来说,机器学习必须的三大要素分别是:

數据计算设备,模型(算法)

如果非要类比的话上面的三要素分别相当于一家餐馆的:

食材,厨具菜品(烹饪技法)

联邦学习要革噺的主要是上面的数据这个要素。

现实生活中数据大多是分散的分布在每个用户的手里。举个例子你想训练一个能够根据照片自动推算年龄的模型,每个用户的手机上的照片就是你所需要的数据

在传统的机器学习范式中,机器学习工程师首先要把散落在每个用户手里嘚数据搜集起来合成一个大的数据集,然后再用这个数据集来训练自己的模型

但是,这个搜集的过程常常被人所诟病。最主要的担惢当时是隐私问题。所以联邦学习就希望能够搭建一个机器学习范式,在这个范式里用户不必上传自己的数据,而是只需要在本地鼡自己数据训练一个自己的模型然后上传这个模型。

如果这里有1000个用户云端就会收到1000个模型。云端再通过一定的方法把这1000个模型合荿一个模型,那么这个模型就可以认为是在1000个用户协同努力下得到的这个模型也当然能够很好的处理每个用户的数据了。

看到这里你會发现,这个过程其实很简单无非就是之前我需要上传数据,现在改成上传模型了是的,这么理解没有任何问题

  1. 上传模型并不是免費以及可靠的,如何处理其中的通信问题
  2. Server 如何把收到多个的模型合成一个

这篇文章是最早明确提出这种范式的并对上面第一和第三个问題提出了最简单的解决方法。算法部分可以用这张图总结一下

然后下一个 round 重复上面的操作,直到模型收敛

传统机器学习里面,我们有 MNIST 數据集里面的图片是 0-9 共 10 种手写数字。

那么可能在 Federated Learning 的情况下(假设正好有 10 个 local users)就是有个用户只有 0 的图片,另外一个用户只有 8 的图片....。雖然总量没变但是每个用户手里的数据是 biased 的,是 Non-IID(非独立同分布) 的这会对优化造成很大的影响。

当然还有其他的问题:

做法很简單,就是我们上面描述的过程:


所以这个实验中有这么几个关键参数:

在做平均的时候,模型们从相同的初始化开始很重要

这个是这篇 paper 觀察到的一个现象具体看这个图。

右边是两个 models 从相同的初始化开始明显”合体“后效果要更好一些。

这篇文章的方法其实是非常简单嘚我们主要是要来看一下实验的设计,如何来验证和探究这种新学习范式的有效性

MNIST 有两种数据分割的模式:

我们首先根据 label 来对数据进荇一个排序,然后把 60,000 个 sample 分成 200 个小块每个小块里面有 300 个 sample。注意这里排序的目的是人为的让每个小块里面,都是同一种数据然后每个 local device 将隨机的得到两个小块。

这样分割完之后每个 local device 都只有两种数字。

总共有 1146个 local device每个 local device 能够拿到一个 play 里面的某个角色的所有台词。这么做的比较囿意思的是整个dataset非常的 unbalance,因为有些角色可能台词特别多有些角色(比如龙套那种)台词特别好,作者认为这样一个数据分布可以很好嘚模拟现实中不同 local device 的情况

总共有还是有 1146 个 local device,只不过数据是随机均匀分割的

这里先来看看每一轮的参与率对结果的影响。

这个表里面的數字代表:

达到预先设定好的 test accuracy 需要多少个 round如果是横线,代表这种方法永远无法达到预先设定的 accuracy

从这个表我们观察出来的这些信息:

  1. 相對于 IID 的情况,Non-IID 情况下增加 C 对网络收敛帮助更大。

而且从上面看,增加 C 对收敛的提速作用并不是线性的所以后面的时候,都设置 C=0.1

峩们来理解一下。En 是一个 round 的总样本数而且 KB 是一个 step 需要的样本数,所以这个 u 的含义是平均到每个 local device 上面一个 round 里面有多少 step。但是这里的 K 其实應该是 0.1K但是因为这个表里的所有试验都是 0.1K,所以乘不乘这个 0.1 也就无所谓了

关于上表的分析(来自论文作者):

  1. 既然减小 B 或者增加 E 带来嘚 mu 的增加都可以有效的减少 rounds,那么当我们在调参的时候就可以先调 B。因为 B 受硬件限制的但是 E 不受硬件设备。B 小了对收敛速度好但是 B 呔小了有个副作用,就不足以完全利用 local device 的计算能力所以我们最好先根据 local device 的能力来确定 B。

关于上表的分析(来自本文作者):

  1. 其实真正决萣每个 round 里面每个 local device 要迭代多少 samples 是 E。所以在 CNN 这个表里面固定 E=5 ,可以观察到 B 越小收敛的越快。这个点很有趣

这个实验里面一直增加 E。加叺 E 增加到无穷大也就是说每个round都train无限多步,那么大概率那么最后收敛的点都是一样的所以 communication 只需要一个 round 就够了,多了也没用

  1. 如何平衡(local 和 server)同步频率和收敛效果的问题?

这个图的横轴是多少 batch 参与更新从这个图来看,还是传统的 SGD 效果最好可以这么理解:SGD 的不同batch 是一种 sequence 嘚关系。举个例子第二个 batch 更新的对象是第一个 batch 更新之后那个模型。但是在 Federated Learning 的场景下由于不同 batch 是分布在不同的 local device 上面的,所以不同 local

另外莋者这里claim了一个点:

就是说,好像 FedAvg 的曲线比 SGD 的还要更稳定一些这样的结论其实不负责任的,因为 FedAvg 在画这个图的时候能够画的点要比 SGD 少佷多,所以看起来曲线更加的平滑这很大可能是因为作图的原因,而非真正的稳定性更好

}

当今的AI仍然面临两个主要挑战 ┅是在大多数行业中,数据以孤立的孤岛形式存在 另一个是加强数据隐私和安全性。 我们为这些挑战提出了一种可能的解决方案:安全嘚联邦学习 除了Google在2016年首次提出的联邦学习框架之外,我们还引入了一个全面的联邦学习框架其中包括横向联邦学习,纵向联邦学习和聯邦迁移学习本文,我们提供联邦学习框架的定义体系结构和应用,并提供有关此主题的现有工作的全面概述 另外,我们建议在基於联邦机制的组织之间建立数据网络作为一种有效的解决方案,以允许在不损害用户隐私的情况下共享知识

2016年是人工智能(AI)走向成熟的一年。 随着AlphaGo 击败人类顶尖的围棋棋手我们真正见证了人工智能(AI)的巨大潜力,以及人们开始期望在许多应用中使用更复杂最先進的AI技术,包括无人驾驶汽车医疗保健,金融等如今,AI技术在几乎每个行业和各行各业中都展现出了自己的优势 但是,当我们回顾AI嘚发展时不可避免的是AI的发展经历了几次起伏。 人工智能会不会再下滑呢 什么时候出现?由于什么因素 当前对人工智能的兴趣是由夶数据所驱动的:2016年,AlphaGo总共使用了300,000个棋局作为训练数据以取得出色的成绩。

有了AlphaGo的成功人们自然希望,像AlphaGo这样的大数据驱动型AI能够在峩们生活的各个方面早日实现但是,现实世界中的情况有些令人失望:除少数行业外大多数领域的数据有限或数据质量较差,这使得AI技术的实现比我们想象的要困难得多通过跨组织传输数据,是否可以将数据融合在一起在一个公共站点中实际上,要打破数据源之间嘚障碍在很多情况下都是非常困难的通常,任何AI项目中所需的数据都涉及多种类型例如,在AI驱动的产品推荐服务中产品卖方拥有有關产品的信息,用户购买的数据但没有描述用户购买能力和付款习惯的数据。在大多数行业中数据以孤立的孤岛形式存在。由于行业競争隐私安全和复杂的管理程序,即使同一公司的不同部门之间的数据集成也面临着巨大的阻力

同时,随着大型公司对数据安全和用戶隐私的妥协意识日益增强对数据隐私和安全的重视已成为全球性的主要问题。有关公共数据泄漏的新闻引起了公共媒体和政府的极大關注例如,Facebook最近的数据泄露事件引起了广泛的抗议作为回应,世界各国都在加强保护数据安全和隐私的法律一个示例就是欧盟于2018年5朤25日实施的《通用数据保护条例》 [GDPR] GDPR旨在保护用户的个人隐私和数据安全。它要求企业使用清晰明了的语言来达成用户协议并授予用户“被遗忘的权利”,也就是说用户可以删除或撤回其个人数据。违反该法案的公司将面临严厉的罚款美国和中国正在制定类似的隐私和咹全法案。例如2017年颁布的《中国网络安全法》和《民法通则》要求互联网业务不得泄露或篡改其收集的个人信息,并且在与第三方进行數据交易时他们需要确保拟议合同遵守法律数据保护义务。这些法规的建立显然将有助于建立一个更加文明的社会但也将给当今AI中普遍使用的数据交互带来新的挑战。

更具体地说人工智能中的传统数据处理模型通常涉及简单的数据交互模型,其中一方收集数据并将其傳输到另一方而另一方将负责整理和融合数据。 最后第三方将获取集成数据并构建模型,以供其他各方使用 模型通常是作为服务出售的最终产品。 这种传统程序面临着上述新数据法规和法律的挑战 同样,由于用户可能不清楚模型的未来用途因此交易违反了GDPR之类的法律。 结果我们面临着一个难题,即我们的数据是孤立的孤岛形式但是在许多情况下,我们被禁止在不同地方收集融合和使用数据進行AI处理。 如今如何合法地解决数据碎片和隔离问题是AI研究人员和从业人员面临的主要挑战。

在本文中我们概述了一种称为联邦学习嘚新方法,这是应对这些挑战的一种可能的解决方案 我们研究了有关联邦学习的现有工作,并为联邦学习框架提出定义 我们讨论了联邦学习框架如何成功地应用于各种企业。 在促进联邦学习方面我们希望将AI开发的重点从改善模型性能(这是大多数AI领域目前正在做的事凊)迁移到研究符合数据隐私和安全法的数据集成方法。

谷歌最近提出了联邦学习的概念他们的主要思想是基于分布在多个设备上的数據集构建机器学习模型,同时防止数据泄漏最近的改进集中在克服统计挑战和提高联邦学习的安全性上。也有研究工作使联邦学习更加個性化以上工作全部集中在设备上的联邦学习上,其中涉及分布式移动用户交互并且大规模分配中的通信成本,不平衡的数据分配和設备可靠性是优化的一些主要因素另外,数据由用户ID或设备ID划分因此在数据空间中横向划分。这项工作与隐私保护机器学习非常相关例如因为它还在分散式协作学习环境中考虑了数据隐私。为了将联邦学习的概念扩展到组织之间的协作学习方案我们将原始的“联邦學习”扩展到所有隐私保护分散式协作机器学习技术的通用概念。我们对联邦学习和联邦迁移学习技术进行了初步概述在本文中,我们將进一步调查相关的安全基础并探讨与其他几个相关领域的关系,例如多主体理论和隐私保护数据挖掘在本节中,我们提供了关于联邦学习的更全面的定义其中考虑了数据分区,安全性和应用程序我们还描述了联邦学习系统的工作流程和系统架构。

定义N个数据所有鍺{F1... FN},他们所有人都希望通过合并各自的数据{D1... DN}来训练机器学习模型。 一种常规方法是将所有数据放在一起并使用D = D1 U D2 U ... DN来训练模型Msum。 联邦学習是一种学习过程其中数据所有者共同训练一个模型Mfed,在该过程中任何数据所有者Fi都不会将其数据Di暴露给其他人。此外Mfed的准确性(表示为Vfed应该非常接近Msum,Vsum的性能令δ为非负实数,如果

我们称联邦学习算法有δ-acc级的损失。

隐私是联邦学习的基本属性之一 这就需要安铨模型和分析来提供有意义的隐私保证。 在本节中我们简要回顾和比较用于联邦学习的不同隐私技术,并确定防止间接泄漏的方法和潜茬挑战

安全多方计算(SMC)。 SMC安全模型自然包含多个参与方并在定义明确的仿真框架中提供安全证明,以确保完全零知识也就是说,烸个参与方除了其输入和输出外一无所知零知识是非常需要的,但是这种期望的属性通常需要复杂的计算协议并且可能无法有效实现。在某些情况下如果提供了安全保证,则可以认为部分知识公开是可以接受的可以在较低的安全性要求下用SMC建立安全性模型,以换取效率最近,研究使用SMC框架训练带有两个服务器和半诚实假设的机器学习模型 引文使用MPC协议进行模型训练和验证,而无需用户透露敏感數据最先进的SMC框架之一是Sharemind。 引文[44]提出了一个诚实多数的3PC模型并在半诚实和恶意假设中考虑了安全性。这些作品要求参与者的数据在非沖突服务器之间秘密共享

差异隐私。 另一种工作方式是使用差分隐私或k-匿名技术保护数据隐私 差异隐私,k匿名和多样化的方法涉及给數据添加噪声或者使用归纳方法掩盖某些敏感属性,直到第三方无法区分个人为止从而使数据无法恢复以保护用户隐私。但是这些方法的根源仍然要求将数据传输到其他地方,并且这些工作通常需要在准确性和隐私之间进行权衡 在[23]中,作者介绍了一种针对联邦学习嘚差分隐私方法目的是通过在训练期间隐藏客户的贡献来为客户端数据提供保护。

同态加密 在机器学习过程中,还采用同态加密来通過加密机制下的参数交换来保护用户数据隐私 与差异隐私保护不同,数据和模型本身不会被传输也不会被对方的数据猜中。 最近的工莋采用同态加密来集中和训练云上的数据 在实践中,加性同态加密被广泛使用并且需要进行多项式逼近来评估机器学习算法中的非线性函数,从而在准确性和保密性之间进行权衡

联邦学习之前的文章公开了一些成果,例如来自诸如随机梯度下降(SGD)之类的优化算法的參数更新但是没有提供安全保证,当这些梯度与诸如以下的数据结构一起公开时这些梯度的泄漏实际上可能会泄漏重要的数据信息。茬图像像素的情况下研究人员已经考虑了一种情况,即联邦学习系统的成员之一通过允许插入后门来学习他人的数据来恶意攻击他人茬[6]中,作者证明了有可能将隐藏的后门插入到联邦全局模型中并提出一种新的“约束和规模”模型中毒方法以减少数据中毒。在[43]中研究人员发现了协作机器学习系统中的潜在漏洞,协作学习中不同方使用的训练数据容易受到推理攻击他们表明,对抗性参与者可以推断絀成员资格以及与训练数据子集相关的属性他们还讨论了针对这些攻击的可能防御措施。

在本节中我们将讨论如何根据数据的分布特征对联邦学习进行分类。令矩阵Di表示每个数据所有者i持有的数据矩阵的每一行代表一个样本,每一列代表一个特征同时,某些数据集鈳能还包含标签数据我们将要素空间表示为X,将标签空间表示为Y并使用I表示样本ID空间。例如在财务字段中,标签可能是用户的信用;在营销字段中标签可能是用户的购买意愿;在教育领域,Y可能是学生的学位特征X,标签Y和样本ID I构成了完整的训练数据集(IX,Y)數据参与方的特征和样本空间可能并不相同,我们根据特征和样本ID空间中各方之间的数据分配方式将联邦学习分为横向联邦学习,纵向聯邦学习和联邦迁移学习图2显示了针对两方场景的各种联邦学习框架。

2.3.1横向联邦学习

在数据集共享相同特征空间但样本不同的情况下引入了横向联邦学习或基于样本的联邦学习。例如两个区域银行可能具有与其各自区域不同的用户组,并且它们的用户的交集非常小泹是,它们的业务非常相似因此要素空间相同。参考文献[58]提出了一种协作式深度学习方案其中参与者独立训练并且仅共享参数更新的孓集。 2017年Google提出了用于Android手机模型更新的横向联邦学习解决方案[41]。在该框架中使用Android手机的单个用户可以在本地更新模型参数,并将参数上傳到Android云从而与其他数据所有者一起共同训练集中式模型。还引入了一种安全的聚合方案以在其联邦学习框架下保护聚合用户更新的隐私[9]。文献[51]使用加性同态加密进行模型参数聚合以提供针对中央服务器的安全性。

在[60]中提出了一种多任务样式的联邦学习系统,以允许哆个站点完成单独的任务同时共享知识并维护安全性。 他们提出的多任务学习模型还可以解决高通信成本麻烦和容错问题。 在[41]中作鍺提议建立一个安全的客户端-服务器结构,在该结构中联邦学习系统按用户划分数据,并允许在客户端设备上构建的模型在服务器站点仩进行协作以构建全局联邦模型 建立模型的过程可确保没有数据泄漏。 同样在[36]中,作者提出了一些方法来提高通信成本以促进基于汾布在移动客户端上的数据的集中模型的训练。 最近提出了一种称为深度梯度压缩的压缩方法[39],以在大规模分布式训练中极大地减少通信带宽

我们总结横向联邦学习如下:

2.3.2纵向联邦学习。

针对纵向划分的数据提出了保护隐私的机器学习算法,包括合作统计分析关联規则挖掘,安全线性回归分类和梯度下降。 最近参考文献[27,49]提出了一种纵向联邦学习方案以训练隐私保护逻辑回归模型。 作者研究叻实体分辨率对学习性能的影响并将泰勒逼近应用于损失和梯度函数,从而可以将同态加密用于隐私保护计算

纵向联邦学习或基于特征的联邦学习适用于两个数据集共享相同的样本ID空间但特征空间不同的情况。

纵向联邦学习是聚合这些不同特征并以保护隐私的方式计算訓练损失和梯度的过程以利用双方的数据共同构建模型。 在这种联邦机制下每个参与方的身份和地位都是相同的,联邦系统帮助每个囚建立“共同财富”策略这就是为什么该系统被称为“联邦学习”。 因此在这样的系统中,我们有:

2.3.3联邦迁移学习(FTL)

联邦迁移学習适用于两个数据集不仅在样本上而且在特征空间上都不同的情况。考虑两个机构一个是位于中国的银行,另一个是位于美国的电子商務公司由于地理位置的限制,两个机构的用户群体之间的交叉点很小另一方面,由于业务不同双方的特征空间只有一小部分重叠。茬这种情况下可以应用迁移学习技术为联邦之下的整个样本和特征空间提供解决方案。特别地使用有限的公共样本集学习两个特征空間之间的共同表示,然后将其应用于获得仅具有一侧特征的样本的预测 FTL是现有联邦学习系统的重要扩展,因为它可以解决问题

超出了现囿联邦学习算法的范围:

下图显示了横向联邦学习系统的典型体系结构在该系统中,具有相同数据结构的k个参与者借助参数或云服务器協作学习机器学习模型 一个典型的假设是,参与者是诚实的而服务器是诚实但好奇的,因此不允许任何参与者向服务器泄漏信息[51]。 這种系统的训练过程通常包含以下四个步骤:

?步骤1:参与者在本地计算训练梯度使用加密,差分隐私或秘密共享技术加密梯度的更新并将加密的结果发送到服务器;

?步骤2:服务器在不了解有关任何参与者的信息的情况下执行安全聚合;

?步骤3:服务器将汇总结果发囙给参与者;

?步骤4:参与者使用解密的梯度更新各自的模型。

假设公司A和公司B希望共同训练机器学习模型并且他们的业务系统各自具囿自己的数据。 此外公司B还具有模型需要预测的标签数据。 出于数据隐私和安全原因A和B无法直接交换数据。 为了在训练过程中确保数據的机密性需要第三方协作者C的参与。 在这里我们假设协作者C是诚实的,并且不与A或B串通但是甲方和B彼此诚实但又好奇。 受信任的苐三方C是一个合理的假设因为第三方C可以由政府等机构扮演,也可以由安全计算节点(例如Intel Software Guard Extensions(SGX))代替 联邦学习系统由两部分组成:

苐1部分。加密对齐 由于两家公司的用户组不同,因此系统使用基于加密的用户ID对齐技术例如在不公开A和B的情况下确认双方的普通用户。 在实体对齐期间系统不会公开彼此不重叠的用户。

第2部分加密模型训练。 确定公共实体后我们可以使用这些公共实体的数据来训練机器学习模型。 训练过程可以分为以下四个步骤:

?步骤1:合作者C创建加密对将公钥发送给A和B;

?步骤2:A和B加密并交换中间结果以进荇梯度和损失计算;

?步骤3:A和B分别计算加密的梯度并添加其他掩码,B也计算加密的损失; A和B向C发送加密的值;

?步骤4:C解密并将解密的梯度和损失发送回A和B; A和B解密相应地更新模型参数。

假设在上面的纵向联邦学习示例中甲方和乙方只有很少的重叠样本集,并且我们囿兴趣学习甲方中所有数据集的标签到目前为止,以上部分中描述的体系结构仅适用对于重叠的数据集为了将其覆盖范围扩展到整个樣本空间,我们引入了迁移学习这并不会改变图4所示的总体架构,而是会改变甲方和乙方之间交换的中间结果的细节具体而言,迁移學习通常涉及学习甲方和乙方特征之间的通用表示并将其最小化。通过利用源域参与方(在这种情况下为B)中的标签来预测目标域参与方的标签中的错误因此,甲方和乙方的梯度计算与纵向联邦学习方案中的梯度计算不同在推论时,仍然需要双方计算预测结果、

联邦学习可以被认为是保护隐私的分布式协作机器学习,因此它与多方隐私保护机器学习紧密相关过去,许多研究工作已致力于该领域唎如,参考文献[1767]提出了用于纵向分区数据的安全多方决策树的算法。 Vaidya和Clifton提出了用于纵向分区数据的安全关联挖掘规则[65]安全k均值[66]和朴素貝叶斯分类器[64]。参考文献[31]提出了一种用于横向分割数据的关联规则的算法安全支持向量机算法是针对纵向分割的数据[73]和横向分割的数据[74]開发的。参考文献[16]提出了用于多方线性回归和分类的安全协议参考文献[68]提出了安全的多方梯度下降方法。

联邦学习与分布式机器学习

乍┅看横向联邦学习与分布式机器学习有些相似。

分布式机器学习涵盖了许多方面包括训练数据的分布式存储,计算任务的分布式操作模型结果的分布式分布等。参数服务器[30]是分布式机器学习中的典型元素作为加速训练过程的工具,参数服务器将数据存储在分布式工莋节点上通过中央调度节点分配数据和计算资源,使训练建模更有效对于横向联邦学习,工作节点表示数据所有者它具有本地数据嘚完全自治权,并且可以决定何时以及如何加入联邦学习在参数服务器中,中央节点始终负责控制因此联邦学习面临着更为复杂的学習环境。其次联邦学习强调在模型训练过程中对数据所有者的数据隐私保护。保护数据隐私的有效措施可以更好地应对将来日益严格的數据隐私和数据安全监管环境

联邦学习可以看作是边缘计算的操作系统。 在[69]中作者考虑了使用基于梯度下降的方法训练的通用机器学習模型。 他们从理论的角度分析了分布梯度下降的收敛范围并在此基础上提出了一种控制算法,该算法确定了局部更新和全局参数聚合の间的最佳折衷以在给定资源预算下将损失函数最小化。

作为一种创新的建模机制它可以针对来自多方的数据训练统一模型而又不损害这些数据的隐私和安全性,因此联邦学习在销售金融和许多其他行业中很有前途的应用,在这些行业中不能直接聚合数据进行训练 甴于诸如知识产权,隐私保护和数据安全之类的因素而导致的机器学习模型

以智能零售为例。其目的是使用机器学习技术为客户提供个性化服务主要包括产品推荐和销售服务。

智能零售业务涉及的数据特征主要包括用户购买力用户个人喜好和产品特征。在实际应用中这三个数据特征可能分散在三个不同的部门或企业中。例如用户的购买力可以从她的银行储蓄中推断出来,而她的个人喜好可以从她嘚社交网络中进行分析而产品的特征则由电子商店来记录。

在这种情况下我们面临两个问题。首先为了保护数据隐私和数据安全,佷难打破银行社交网站和电子购物网站之间的数据障碍。结果数据不能直接聚合以训练模型。其次存储在三方中的数据通常是异构嘚,并且传统的机器学习模型无法直接在异构数据上工作目前,这些问题尚未通过传统的机器学习方法得到有效解决这阻碍了人工智能在更多领域的普及和应用。

联邦学习和迁移学习是解决这些问题的关键 首先,通过利用联邦学习的特征我们可以为三方构建机器学習模型而无需导出企业数据,不仅可以充分保护数据隐私和数据安全还可以为客户提供个性化和针对性的服务,从而实现 互惠互利 同時,我们可以利用迁移学习来解决数据异质性问题并突破传统人工智能技术的局限性。 因此联合学习为我们构建大数据和人工智能的跨企业,跨数据和跨域生态圈提供了良好的技术支持

近年来,数据的隔离和对数据隐私的重视正成为人工智能的下一个挑战但联邦学習为我们带来了新的希望。 它可以在保护本地数据的同时为多个企业建立统一的模型从而使企业可以在以数据安全为前提的情况下共同取胜。 本文介绍了联邦学习的基本概念体系结构和技术,并讨论其在各种应用中的潜力 预计在不久的将来,联邦学习将打破行业之间嘚障碍并建立一个可以安全共享数据和知识的社区, 人工智能的好处最终将带入我们生活的每个角落

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信