潘正茂
- 作品数:3 被引量:46H指数:2
- 供职机构:西安建筑科技大学信息与控制工程学院更多>>
- 发文基金:陕西省教育厅自然科学基金国家自然科学基金陕西省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 不平衡数据分类问题研究
- 在很多实际应用中,比如网络入侵、医疗诊断以及故障检测等,分类处理的对象大多是不平衡数据(集),即某些类别的样本数量明显少于其它类别的数据集,通常这些数据集中的少数类包含的信息是更重要的。然而,采用传统的分类方法对不平衡数...
- 潘正茂
- 关键词:不平衡数据K-近邻算法数据挖掘
- 文献传递
- 改进型加权KNN算法的不平衡数据集分类被引量:26
- 2012年
- K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类。为此,提出一种加权KNN算法GAK-KNN。定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类。基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法。
- 王超学潘正茂马春森董丽丽张涛
- 关键词:不平衡数据集K-MEANS算法
- 基于改进SMOTE的非平衡数据集分类研究被引量:19
- 2013年
- 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。
- 王超学潘正茂董丽丽马春森张星
- 关键词:非平衡数据集轮盘赌选择