两种常见的架构:客户-服务器架构和对等网络架构
联邦学习在传统的分布式机器学习基础上的变化。
传统的分布式机器学习:在数据中心或计算集群中使用并行训练,因为有高速通信连接,所以通信开销相对很小,计算开销将会占主导地位。
联邦学习:通信需要依靠互联网,甚至是无线网络,所以通信代价是占主导地位的。
减少通信轮次的方法
? 增加并行度:加入更多的参与方,让它们在通信轮次间各自独立地进行模型训练。
? 增加每一个参与方中的计算:每一个参与方可以在两个通信轮次之间进行更复杂的计算。
1、服务器初始化训练模型,并随机选择所有客户端中的一部分将模型广播给被选择的用户。
2、被选择的客户端先将接受到的模型作为初始化模型,在利用本地数据进行训练,然后将结果上传给服务器。
3、服务器聚合收到的模型,然后再随机选择所有客户端中的一部分,将模型广播给被选择的用户。
4、重复2和3,直至模型收敛。
? 设备异质性:不同的设备间的通信和计算能力是有差异的。在FedAvg中,被选中的客户端在本地都训练相同的epoch,虽然作者指出提升epoch可以有效减小通信成本,但较大的epoch下,可能会有很多设备无法按时完成训练。无论是直接drop掉这部分客户端的模型还是直接利用这部分未完成的模型来进行聚合,都将对最终模型的收敛造成不好的影响。
? 数据异质性:不同设备中数据可能是非独立同分布的。如果数据是独立同分布的,那么本地模型训练较多的epoch会加快全局模型的收敛;如果不是独立同分布的,不同设备在利用非IID的本地数据进行训练并且训练轮数较大时,本地模型将会偏离初始的全局模型。
Resource-Efficient Federated Learning with Hierarchical Aggregation in Edge Computing(IEEE INFOCOM 2021)