聚类本身具备异常值检测的能力,但Kmeans和层次聚类对离群值敏感,这会干扰到聚类特征的学习优化策略包括1 考虑采用不同距离度量,如曼哈顿距离或余弦相似度,以减少离群值的影响2 引入权重调整,对离群值赋予较低权重,减少其对整体聚类结果的冲击3 使用基于密度的聚类方法,如DBSCAN,以;在GMM中,观测数据的产生是先根据概率选择一个分布,然后由该分布随机产生我们可以设置一个隐变量来表示观测数据的产生过程使用EM算法可以求解GMM的参数,包括权值均值和协方差3 GMM与Kmeans 31 Kmeans目标函数推导 在GMM中,如果我们假设权重均一致协方差矩阵为单位矩阵,并将样本归属于。