密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法在应对大规模聚类时效率不高。k近邻密度支配域小团簇加速技巧可以很好地改善该短板,但存在代表点代表能力不足的问题,从而影响聚类质量。代表团采样策略可作为上述问题的改进方式。由此形成的新算法不仅继承了原有密度支配域小团簇加速技巧的高效特性,还保证了聚类的质量。算法构建k近邻图。再利用k近邻图进行核密度估计并构建若干个密度支配域。对各密度支配域分别从高低密度区域采样支配域代表团。利用代表团的近邻关系计算域间相似度。将各支配域视为新样本点,执行DPC算法完成聚类。实验证明,引入代表团策略对DPC算法有一定的提升,聚类效果比部分密度聚类算法更好。
针对基于深度神经网络填补多变量时序数据缺失值时存在误差引入的问题,将强化学习和图神经网络结合,提出了基于强化学习的多变量时序数据缺失值补全方法(reinforcement learning based missing value completion method for multivariate time series data,RL-CFMTS)。具体地,设计了一个图神经网络模块,用于预测最终的缺失值。同时,该模块还为强化学习模块提供状态向量和奖励,指导强化学习为目标时序节点挑选其认为最相似的b个节点来建立时序关系,以减少误差的引入。在3个真实世界数据集上的实验结果表明,RL-CFMTS在插补准确性方面优于近年来的多变量时序数据缺失值填补方法,在天气、股票和疫情数据集中平均绝对误差(mean absolute error,MAE)指标分别提升了12.78%、15.80%和55.73%。