然而,Garipov等人提出,通过沿SGD路径在多个点取平均,结合循环或常数学习率,可以实现相较于传统训练更好的泛化性能,这种方法称为随机权重平均Stochastic Weight Averaging,SWASWA能够找到相较于SGD更为平滑的解,并且只需要一个模型就能达到快速几何集成方法Fast Geometric Ensembling,FGE的效果;比如你先设置4个权重系数“098099101103”或“097100101102”等放在口袋里,老师给定一个数88,你给出4个数“79838688”都在老师给的数值大小的90%100%之间然后你随机抽取权重系数与给定数值“79838688”相配,再然后进行计算你应该怎么给A B。