宗鸣
- 作品数:7 被引量:41H指数:3
- 供职机构:广西师范大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划广西壮族自治区自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 大数据下的快速KNN分类算法被引量:29
- 2016年
- 针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。
- 苏毅娟邓振云程德波宗鸣
- 关键词:大数据分块聚类中心
- 基于稀疏学习的自适应近邻分类算法被引量:1
- 2015年
- 为解决k-NN算法中固定k的选定问题,引入稀疏学习和重构技术用于最近邻分类,通过数据驱动(data-driven)获得k值,不需人为设定。由于样本之间存在相关性,用训练样本重构所有测试样本,生成重构系数矩阵,用l1-范数稀疏重构系数矩阵,使每个测试样本用它邻域内最近的k(不定值)个训练样本来重构,解决k-NN算法对每个待分类样本都用同一个k值进行分类造成的分类不准确问题。UCI数据集上的实验结果表明,在分类时,改良k-NN算法比经典k-NN算法效果要好。
- 程德波苏毅娟宗鸣朱永华
- 关键词:数据驱动
- 基于稀疏学习的kNN分类被引量:6
- 2016年
- 在kNN算法分类问题中,k的取值一般是固定的,另外,训练样本中可能存在的噪声能影响分类结果。针对以上存在的两个问题,本文提出一种新的基于稀疏学习的kNN分类方法。本文用训练样本重构测试样本,其中,l_1-范数导致的稀疏性用来对每个测试样本用不同数目的训练样本进行分类,这解决了kNN算法固定k值问题;l_(21)-范数产生的整行稀疏用来去除噪声样本。在UCI数据集上进行实验,本文使用的新算法比原来的kNN分类算法能取得更好的分类效果。
- 宗鸣龚永红文国秋程德波朱永华
- 稀疏编码的最近邻填充算法被引量:2
- 2015年
- 针对K最近邻填充算法(K-nearest neighbor imputation,KNNI)的参数K值固定问题进行了研究,发现对缺失值填充时,参数K值固定很大程度上影响了填充效果。为此,提出了基于稀疏编码的最近邻填充算法来解决这一问题。该算法是用训练样本重构每一缺失样本,在重构过程中充分考虑了样本之间的相关性;并用1范数来学习确保每个缺失样本用不同数目的训练样本填充,以此解决KNNI算法参数K值选取问题。基于数据性能分析指标RMSE和相关系数的实验比较结果表明,该算法比KNNI算法的效果要好。该算法能很好地避免了KNNI算法存在的缺陷,适用于数据预处理环节需要对缺失值进行填充的应用领域。
- 苏毅娟程德波宗鸣李凌朱永华
- 关键词:缺失值填充均方根误差相关系数数据预处理
- 基于子空间学习的嵌入式属性选择方法及其应用
- 本发明的基于子空间学习的嵌入式属性选择方法及其应用,在嵌入式属性选择框架上加入了子空间学习技术,利用子空间技术高效的学习能力改进属性选择进行属性约简的能力。本方法包括1)给定训练集条件属性及对应的类标签,建立一个具有LD...
- 朱永华宗鸣程德波邓振云孙可朱晓峰张师超
- 文献传递
- 基于混合模重构的kNN回归被引量:3
- 2016年
- 对于线性回归中k NN(k-Nearest Neighbor)算法的k值固定问题和训练样本中的噪声问题,提出一种新的基于重构的稀疏编码方法。该方法用训练样本重构每一个测试样本,重构过程中,l_1-范数被用来确保每个测试样本被不同数目的训练样本来预测,以此解决kNN算法固定k值问题;l_(2,1)-范数导致的整行稀疏被用来去除噪声样本,以避免数据集上的噪声对重构产生不利影响。实验在UCI数据集上显示:新的改进算法比原来的kNN算法在线性回归中具有更好的预测效果。
- 龚永红宗鸣朱永华程德波
- 基于稀疏表示和决策树的最近邻方法研究
- 分类问题是数据挖掘领域中最基本和最重要的问题之一,在计算机视觉、自然语言处理、生物特征识别和医学诊断等领域都有着广泛的应用。最近邻算法是一种常见的分类算法:给定一个测试样本,找出与它相似的训练样本进行比较来学习。k-最近...
- 宗鸣
- 关键词:数据挖掘最近邻算法决策树