您的位置: 专家智库 > >

贾洪杰

作品数:4 被引量:57H指数:2
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划江苏省普通高校研究生科研创新计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 1篇会议论文

领域

  • 3篇自动化与计算...

主题

  • 4篇谱聚类
  • 4篇聚类
  • 3篇谱聚类算法
  • 3篇聚类算法
  • 2篇信息熵
  • 2篇属性约简
  • 2篇邻域粗糙集
  • 2篇粗糙集
  • 1篇自适
  • 1篇自适应
  • 1篇自适应采样
  • 1篇最大化
  • 1篇矩阵
  • 1篇加权
  • 1篇核矩阵
  • 1篇K-MEAN...
  • 1篇K-MEAN...
  • 1篇采样
  • 1篇大数据
  • 1篇M

机构

  • 4篇中国科学院
  • 4篇中国矿业大学

作者

  • 4篇贾洪杰
  • 4篇丁世飞
  • 2篇史忠植

传媒

  • 2篇软件学报
  • 1篇南京大学学报...

年份

  • 1篇2015
  • 1篇2014
  • 2篇2013
4 条 记 录,以下是 1-4
排序方式:
基于邻域粗糙集约减的谱聚类算法被引量:1
2013年
谱聚类算法是近年来机器学习领域的研究热点,它基于代数图论,可以有效地解决很多实际问题.但是传统的谱聚类算法无法很好地处理高维数据,容易受到噪声和不相关属性的干扰.为了降低计算复杂度,同时减弱噪声数据和冗余属性对聚类的负面影响,提出了一种基于邻域粗糙集约减的谱聚类算法(NRSR-SC).该算法将信息熵引入到邻域粗糙集中,在保持样本区分能力的前提下,去除冗余的属性,保留对聚类贡献最大的属性;然后基于约简后的属性集合,计算样本点之间的相似度,构造相似性矩阵和拉普拉斯矩阵;最后利用谱方法得到最终的聚类结果.实验表明,NRSR-SC算法在处理高维数据时,具有较强的抗干扰能力,其运行效率和准确率都有明显改善.
贾洪杰丁世飞
关键词:邻域粗糙集信息熵属性约简谱聚类
基于邻域粗糙集约减的谱聚类算法
谱聚类算法是近年来机器学习领域的研究热点,它基于代数图论,可以有效地解决很多实际问题。但是传统的谱聚类算法无法很好地处理高维数据,容易受到噪声和不相关属性的干扰。为了降低计算复杂度,同时减弱噪声数据和冗余属性对聚类的负面...
贾洪杰丁世飞
关键词:邻域粗糙集信息熵属性约简谱聚类
求解大规模谱聚类的近似加权核k-means算法被引量:30
2015年
谱聚类将聚类问题转化成图划分问题,是一种基于代数图论的聚类方法.在求解图划分目标函数时,一般利用Rayleigh熵的性质,通过计算Laplacian矩阵的特征向量将原始数据点映射到一个低维的特征空间中,再进行聚类.然而在谱聚类过程中,存储相似矩阵的空间复杂度是O(n2),对Laplacian矩阵特征分解的时间复杂度一般为O(n3),这样的复杂度在处理大规模数据时是无法接受的.理论证明,Normalized Cut图聚类与加权核k-means都等价于矩阵迹的最大化问题.因此,可以用加权核k-means算法来优化Normalized Cut的目标函数,这就避免了对Laplacian矩阵特征分解.不过,加权核k-means算法需要计算核矩阵,其空间复杂度依然是O(n2).为了应对这一挑战,提出近似加权核k-means算法,仅使用核矩阵的一部分来求解大数据的谱聚类问题.理论分析和实验对比表明,近似加权核k-means的聚类表现与加权核k-means算法是相似的,但是极大地减小了时间和空间复杂性.
贾洪杰丁世飞史忠植
关键词:谱聚类
基于自适应Nystrm采样的大数据谱聚类算法被引量:26
2014年
面对结构复杂的数据集,谱聚类是一种灵活而有效的聚类方法,它基于谱图理论,通过将数据点映射到一个由特征向量构成的低维空间,优化数据的结构,得到令人满意的聚类结果.但在谱聚类的过程中,特征分解的计算复杂度通常为O(n3),限制了谱聚类算法在大数据中的应用.Nystrm扩展方法利用数据集中的部分抽样点,进行近似计算,逼近真实的特征空间,可以有效降低计算复杂度,为大数据谱聚类算法提供了新思路.抽样策略的选择对Nystrm扩展技术至关重要,设计了一种自适应的Nystrm采样方法,每个数据点的抽样概率都会在一次采样完成后及时更新,而且从理论上证明了抽样误差会随着采样次数的增加呈指数下降.基于自适应的Nystrm采样方法,提出一种适用于大数据的谱聚类算法,并对该算法的可行性和有效性进行了实验验证.
丁世飞贾洪杰史忠植
关键词:大数据谱聚类自适应采样
共1页<1>
聚类工具0