非IID的无线任务数据肯定会影响到基于联邦的学习

2022-05-12 版权声明 我要投稿

摘要:作为一种分布式训练框架,联邦学习在无线通信领域有着广阔的应用前景,也面临着多方面的技术挑战,其中之一源于参与训练用户数据集的非独立同分布(Independentandidenticallydistributed,IID)。不少文献提出了解决方法,以减轻户数据集非IID造成的联邦学习性能损失。本文以平均信道增益预测、正交幅度调制信号的解调这两个无线任务以及两个图像分类任务为例,分析用户数据集非IID对联邦学习性能的影响,通过神经网络损失函数的可视化和对模型参数的偏移量进行分析,尝试解释非IID数据集对不同任务影响程度不同的原因。分析结果表明,用户数据集非IID未必导致联邦学习性能的下降。在不同数据集上通过联邦平均算法训练得到的模型参数偏移程度和损失函数形状有很大的差异,二者共同导致了不同任务受数据非IID影响程度的不同;在同一个回归问题中,数据集非IID是否影响联邦学习的性能与引起数据非IID的具体因素有关。

关键词:联邦学习;数据集非独立同分布;平均信道增益;解调;损失函数可视化

引言

利用机器学习设计无线通信系统是第六代移动通信的重要研究方向。作为一种分布式训练方法,联邦学习[1]可以有效降低集中式训练机器学习模型时存在的数据隐私风险,相对于集中式学习在降低通信开销方面也有潜力[2],是在无线边缘实现人工智能的主流技术之一,在无线网络中有广阔的应用前景[3,4]。最近,联邦学习已经被用于各种无线任务。文献[5]提出了一种基于分布式训练的自动调制分类方法。文献[6]和文献[7]利用联邦学习预测文件流行度,以实现在基站端或在雾无线接入网中的主动缓存。文献[8]提出了基于联邦强化学习的联合协作边缘缓存方法,以减小延迟、提高缓存命中率。

然而,在付诸实际应用之前,联邦学习还面临多方面的挑战,其中一个来自于用户数据集的非独立同分布(Independentandidenticallydistributed,IID)[9],即用户本地所记录的数据分布往往无法反映所有用户数据的全局分布。文献[10,11]发现用户数据集非IID会导致联邦学习精度下降,甚至使训练过程不收敛。文献[10]进一步发现联邦学习得到的模型参数与集中式训练得到的模型间的偏移与数据非IID的程度有关,且模型参数的偏移导致了联邦学习精度的下降。针对数据非IID带来的问题,已有不少文献提出了提高联邦学习性能的措施。文献[10]提出可以通过在所有用户间共享一个小的全局数据集来使数据集趋于IID,实验结果表明,通过共享5%的全局数据,可以使联邦平均[1]在CIFAR-10数据集上的准确率提高约30%。文献[12]在用户训练模型的损失函数上加入了一个本地模型与全局模型的差异项,仿真结果表明,这种方法在异质数据环境中具有更强的鲁棒性和更高的稳态精度。文献[13]通过在服务器端采用动量更新的方式来提高联邦平均在数据非IID时的准确率。文献[14]利用模型权重和数据分布之间的隐式联系,主动选择特定用户参与分布式训练从而平衡非IID引入的偏差。然而,共享数据会带来额外的通信开销,用户选择会减少能参加训练的用户数,限制了在移动性强、各小区中用户数有限的蜂窝网络中应用联邦学习。

大部分现有文献只针对MNIST、CIFAR-10等图像分类任务以及文本字符预测等任务提高联邦学习在数据非IID时的性能[12-15],而未解释是哪些因素导致用户数据非IID使联邦学习的性能下降。然而,当参与联邦学习的用户数据集非IID时,分布式训练的性能一定会下降吗?如果下降,原因是什么?正是因为不了解数据非IID为什么导致联邦学习性能下降,一些文献所提出的解决数据集非IID的方法在一些数据集(如MNIST)上性能提升不大[16]。为了回答上述问题,本文用神经网络进行平均信道增益预测和正交幅度调制(QuadratureAmplitudeModulation,QAM)信号解调,通过这两个无线通信任务以及两个图像分类任务,研究数据非IID对联邦学习分类和回归性能的影响,通过比较模型参数偏移量和损失函数曲面形状,尝试解释对于不同分类任务数据非IID、及在回归问题中不同因素导致的数据非IID对联邦学习性能影响的程度及其原因。

本文第二节介绍基于联邦学习的两个无线任务,以及定量描述数据集非IID程度的方法、损失函数的可视化方法以及模型匹配原理。第三节比较对于多个任务当非IID程度不同时联邦学习的性能,从模型权重偏移和损失函数曲面形状的角度解释对于不同的任务联邦学习对数据非IID敏感程度不同的原因。

基于联邦学习的无线任务及分析方法

基于联邦学习的平均信道增益预测

考虑在一个多基站覆盖区域内移动的用户的平均信道增益预测问题。各基站通过回传链路连接到一个边缘服务器。为了高效地分配通信资源,当有服务需求时,用户根据过去一段时间(称为观测窗)内记录的平均信道增益、利用本地训练的神经网络模型预测未来一段时间(称为预测窗)内每帧的平均信道增益,其中帧的时间长度为大尺度信道(包括路径损耗和阴影衰落)的相干时间。服务器可以通过基站收集基站与用户间的平均信道,通过集中式训练得到神经网络模型,也可以对用户上传的本地神经网络模型进行平均得到全局模型。

我们采用文献[17]中的多输入单输出神经网络结构完成上述预测任务。若用户在第t帧需要进行信道预测,则每隔一帧依次输入信道增益观测向量[xt-T+i,...,xt-T+i],神经网络依次输出在时刻t+i上的信道预测值xt+i,i=1,2,…,Tp,直至完成整个预测窗内信道增益的预测,其中To为观测窗中的观测数、Tp为预测窗中待预测的平均信道增益个数。神经网络的输入为To-Tp+1维向量,输出为一个实数。

共有K个移动用户参与联邦学习,对上述神经网络进行训练。当每个用户进入这个区域时,都开始记录每帧与所接入基站间的信道增益直至离开这个区域,从而形成一条记录。

本文采用联邦学习框架下最常用的算法:联邦平均[1]。在第t轮通信中,各用户从服务器下载第t帧的全局模型Wt,把全局模型作为初值利用所记录的数据集通过多次迭代进行训练,而后把更新后的模型参数上传到服务器。服务器对来自各个用户的模型参数进行加权平均,

即W=åKnkWk,从而得到下一轮的

t+1k=1Nt

全局模型Wt+1,其中Wk为第k个用户通过第t轮本地训练得到的模型参数,nk为第k个用户记录的信道增益条数,Kn

k1。经过多轮用户本地训练和通信,最终完成对神经网络的训练。

基于联邦学习的QAM解调

考虑基于神经网络的MQAM解调问题。把M个星座点分别编号为数字1~M。神经网络的输入节点数为2,分别对应于星座点的实部xr和虚部xi;输出节点数为M,对应于M个星座点的概率向量。

K个用户参与联邦学习,各用户都保存一个包含若干类星座点的数据集:D={(x,y)}Dk,其中Dk是

kjjj=1

第k个用户的数据集,(xj,yj)是Dk中的第j个样本,xj包括一个星座点的实部xj和虚部xj,yj是标签、为该星座点对应的数字,表示集合中元素的个数。

在每一轮通信中,用户下载当前的全局模型参数,并在本地数据集上经多次迭代训练后把模型参数上传至服务器,直至完成训练。

描述数据集非IID程度的指标

对于分类问题,用户数据集非IID表现为每个用户所存数据的类别数少于所有用户数据的总类别数,即用户本地训练集中数据的分布与所有用户训练集组成的全局数据分布不同。文献[10]借用文献[18]中用于衡量图像间相似性的搬土距离(earthmover’sdistance,EMD)来定量描述用户数据集非IID的程度。第k个用户数据集的搬土距离为:

EMDCkkiii=1

其中0£pk£1,åC

pk=1,0£p£1,åC

p=1,C为总类别数,pk=[pk,...,pk]为第k个用户数据集中各个类别数据的概率分布向量,p=[p1,...,pC]为全局数据分布向量。

若所有用户数据集的EMD值相同、即EMD1=...=EMDK=EMD,则EMD=0时对应于数据集IID的情况,且EMD越大用户数据集非IID的程度越高;若在全局数据中各类数据服从均匀分布,则EMD可达到如下的最大值:EMDmax=2C-1。

对于回归问题,数据集非IID表现为用户所存数据的特征偏斜,即各用户本地训练集中的特征分布与所有用户训练集组成的全局数据集的特征分布不同。若特征是离散随机变量,则依然可以由EMD描述非IID程度;若特征是连续随机量(例如信道预测问题中用户的运动速度),则不能用EMD描述这些特征导致的数据非IID程度。我们借鉴文献[19]用颜色直方图间的欧式距度量图像间相似度的方式来定量描述连续特征所导致的非IID程度。令f为表示某个特征的连续变量,将其取值范围均匀分为Nf个区间,在全局数据集中特征f对应的直方图用向量h=1h=[h,...,h]表示,其中h=[h,...,h],h是该特征分布在第jNfj=1j1Nf1Nfj个区间内的样本数。

损失函数可视化

给定数据集D和神经网络结构,则损失函数为神经网络模型参数W的函数,L(W)。在分类问题中,我们采用交叉熵为损失函数,即:L(W)=-1NCy(x)log(p(W,x)),其中N为样本数,x为网络Nåi=1åj=1jijii的输入,åCp(W,x)=1,åCy(x)=1,p(W,x)=[p(W,x),...,p(W,x)]为输入x时神经网络输出的概率向量,y(xi)=[y1(xi),...,yC(xi)]为xi对应标签的独热编码向量。在回归问题中,我们采用经验均方误差为损失函数,即:L(W)=1åN(ˆy(W,x)-y(x))2,其中ˆy(W,x)为输入为xi时神经网络的预测输出,y(x)为xi对应的标签。

可视化是解决神经网络事后可解释性、即对训练后的模型进行解释的一种有效手段,其中观察训练后得到的损失函数L(W*)的几何形状是理解神经网络泛化能力的重要手段之一。然而,考虑到W包含了几百、上千、甚至上千万个模型参数,无法在W*构成的高维自变量空间上观察L(W*),文献[20]提出了如下方法对损失函数在二维或三维空间进行可视化。以已经训练好的模型参数W*作为中心点、再选择两个观察方向,即可得到损失函数L(W*)在两个方向上的向量x、y构成的超平面上的值:

f(a,b)=L(W*+ax+by)

(3)

其中

上一篇:现代主题电影营销策略分析——以《我与祖国》为例下一篇:在物流管理专业教学中应用虚拟现实技术