联邦学习场景下,FedAvg使用Adam优化器或Adamw优化器可以吗?
2024-11-25 阅读 14
在联邦学习场景下,一般建议使用SGD(随机梯度下降)优化器而不是Adam或AdamW优化器。这是因为在联邦学习中,由于每个参与方的数据分布和数据量可能不同,使用SGD通常更容易收敛并更稳定。另外,由于Adam和AdamW优化器在计算梯度的一阶矩估计和二阶矩估计时会受到单个参与方数据的影响,可能会导致不稳定性和性能下降。因此,为了保持联邦学习的效果和稳定性,建议在FedAvg中使用SGD优化器。
更新于 2024年11月26日