论文阅读-IoT中基于多源异构设备的联邦生成式模型
摘要
现有的大多数工作都是集中实现生成式模型,引起安全性、隐私的问题并带来超额通信开销。少数工作考虑了当训练数据来自各异构设备时的分布式生成模型。本文中,为了解决这一问题,设计了一种联邦生成模型框架,可以在层级的IoT系统中学习到一个强大的生成器,可以在两种场多源异构数据场景中使用:特征相关的场景(特征形状类似)和标签相关的场景。此外,本文设计了一种同步和异步更新的方法来满足不同的应用需求。实验在一个模拟数据集和多个现实数据集上执行。
简介
生成模型带来的突破已迅速对多个领域产生了革命性影响,并在物联网(IoT)中的各类实际应用中广泛应用。在物联网环境中,各种设备相互连接,用于生成、收集、共享和处理异构数据,以推动数据驱动型应用的发展。
然而,目前大部分研究工作实现的是集中式生成模型,这些模型先将物联网设备的数据收集到中央服务器,再进行训练以达到生成目标。这种集中式生成模型可能容易受到单点故障和隐私泄露问题的影响。此外,用户因隐私顾虑而不愿意与中央服务器共享数据,从而增加了数据收集的难度,阻碍了物联网应用的进一步发展。另一方面,将如此庞大的数据传输到中央服务器也会给物联网带来高昂的通信成本。为了解决隐私和通信成本问题,设计分布式生成模型将是更优的解决方案。且:在多个物联网设备上数据集是非独立同分布(non-i.i.d.)的情况下,分布式生成模型可以学习混合分布,生成更加多样化的数据。
目前,只有少数研究了分布式生成模型,但在实际物联网场景中忽视了以下关键问题:1.大多数现有工作采用联邦学习模式,需要上传大量模型参数,给有限的网络资源带来负担;2.所有现有研究主要关注独立同分布的数据进行模型训练,而未涉及非独立同分布数据情境;3.没有研究考虑不同物联网设备之间的数据域异质性。
本文设计了一个新颖的分布式生成模型框架,考虑了物联网设备的基本特性,包括广泛的地理分布、较低的计算能力、非独立同分布数据及异构数据域。基于不同应用场景下物联网设备中的数据分布及相关性,本文研究了分布式数据生成问题的两种情境:(i) 特征相关情境,即不同群体的数据具有相同的特征但标签不同;(ii) 标签相关情境,即不同群体的数据具有相同的标签但特征不同。
本文的主要贡献如下:
1.基于物联网应用的特性,我们设计了一个三层分层框架来部署联邦生成模型,这是首个考虑多源异构数据的分布式数据生成框架。
2.针对物联网应用中的数据情境,我们在所提出的分层框架下,提出了两种生成模型用于多源数据生成。
3.我们设计了同步和异步更新策略,以便根据不同的应用需求在边缘设备上训练生成器。
4.我们在来自多个数据域的不同数据集上进行了大量实验,对比现有方法,展示了所提数据生成模型的性能。
相关工作:关于多源GANs
生成对抗网络(GANs)最初专注于单一数据集上的数据生成。在多源数据场景中,通过提供两个或多个数据源来训练GAN的变体,主要研究条件生成和联合生成。条件生成方法旨在学习在给定其他数据源作为附加信息的条件下,一个数据源的条件分布。不同地,联合生成方法试图学习多个数据源的联合分布,通过在邻域间交换信息来适应全局分布。一些研究简化了此前的结构,将多个生成器改为一个并保留多个判别器的训练结构,这种改进通过聚合判别器的损失反馈到生成器,从而提升生成质量。在此方向上,也有研究考虑了多数据集的分布式数据生成,在该方法中,多个判别器根据其损失值进行加权平均。
自联邦学习范式提出以来,已被用于开发各种GANs,这些方法的细微差别在于是否聚合生成器、判别器或两者。然而,对于这些生成模型来说,高通信成本源于反复传输模型参数。为规避这一问题,另一些改进方法提出设置一个中央生成器并使用本地判别器的损失值来更新生成器,与传输整个模型相比,服务器与本地客户端之间的数据传输量大大减少。然而,这些方案并未专门针对非独立同分布(non-i.i.d)数据,缺乏在实际应用中的扎实基础。上述方法适用于单一数据源,但在多源异构数据源上则不适用。此外,现有针对多源数据的生成模型采用集中模式,限制了它们在分布式数据孤岛中的适用性。
系统框架
本文的联邦生成模型框架为一个三层架构,底层是IoT设备,中间是边缘服务器,顶层是一个云服务器。特别地,每个边缘服务器都位于覆盖本地区域的基站下,与覆盖的物联网设备构成一个local community。系统图:

为了数据生成,每个IoT设备上部署一个discriminator,每个边缘服务器上部署一个community
generator,在云服务器上部署一个global generator。定义K是区域数量,
训练过程分两阶段:1.本地区域训练,在边缘服务器更新
特征相关数据生成
这一场景中,来自不同区域的数据特征相同而标签不同。如上图所示,三个区域的特征都是0~1像素值的灰度图,但标签分别是digit和cloth。类似的场景还有:不同医院涵盖不同疾病类别;不同位置的传感器可以感知不同空气质量指数,等等。
生成器
首先是,本地生成器
判别器
在本地区域每次迭代训练中,判别器
更新策略
考虑到IoT设备的多样性和不同应用的需求,更新
同步更新
这种方式下,
式中,
异步更新
由于IoT设备可能有不同容量、计算效率和传输能力,同步方式可能会增加时间耗时。在异步方式中,
其中
标签相关数据生成
这种场景下,不同区域数据集特征不一样但标签一样。例如,车联网中,一个区域负责车辆拍照,一个区域负责传输雷达数据,但它们有同样的标签。以下图为例:三个区域都是数字标签,但是数据特征在背景颜色、亮度上都不一样。全局生成器旨在根据同一标签生成不同域的数据,因此需要在云服务器加一个分类器C来区分生成数据的原始来源。

生成器
在这种情况下,全局生成器希望在不同域条件下生成多域数据分布,每个区域的条件定义为
判别器
同样包括更新和损失计算两个操作,与上述基本一致,只是公式的G里做了个条件
本文只提供具体模型下的分布式训练思路,未涉及通信。