国家自然科学基金(40771163) 作品数:16 被引量:117 H指数:6 相关作者: 吉根林 杨明 姚瑶 朱颖雯 杨萍 更多>> 相关机构: 南京师范大学 南京人口管理干部学院 南京大学 更多>> 发文基金: 国家自然科学基金 江苏省高校自然科学研究项目 江苏省自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
一种基于隐私保护的分布式聚类算法 被引量:6 2009年 针对水平划分的分布式数据库提出了一种基于隐私保护的分布式聚类算法PPDK-Means,该算法基于K-Means的思想实现分布式聚类,并且聚类过程中引入半可信第三方,应用安全多方技术保护本站点真实数据不被传送到其他站点,从而达到隐私保护的目的。理论分析和实验结果表明PPDK-Means算法是有效的。 姚瑶 吉根林关键词:分布式聚类 隐私保护 安全多方计算 GML文档结构聚类算法Clu-GML 被引量:11 2008年 提出了一种geography markup language(GML)文档结构聚类新算法Clu-GML,与其它相关算法不同,该算法在凝聚的层次聚类中引入代表树的计算,通过计算最大频繁Induced子树得到簇的代表树,通过对代表树的比较发现新的簇,并更新新簇的代表树来完成聚类,不仅减少了聚类的时间开销,而且为每个簇形成聚类描述.实验结果表明算法Clu-GML是有效的,且性能优于其它同类算法. 苗建新 吉根林关键词:GEOGRAPHY MARKUP LANGUAGE 结构聚类 基于最大频繁Induced子树的GML文档结构聚类 被引量:3 2008年 提出了一种基于最大频繁Induced子树的GML文档结构聚类新算法TBCClustering.通过挖掘GML文档集合中的最大频繁Induced子树构造特征空间,并对特征空间进行优化;采用CLOPE聚类算法聚类GML文档,可自动生成最小支持度与聚类簇的个数,无需用户设置;不仅减少了特征的维数,而且得到了较高的聚类精度.实验结果表明算法TBCClustering是有效的,且性能优于PBClustering算法. 朱颖雯 吉根林面向垂直划分数据库的隐私保护分布式聚类算法 被引量:1 2008年 针对垂直划分的分布式数据库提出了一种基于隐私保护的分布式聚类算法PPDC-VP,该算法基于K-Means的思想实现分布式聚类,并且聚类过程中应用扰乱技术保护本站点真实信息不被传送到其它站点,从而达到隐私保护的目的.理论分析和实验结果表明PPDC-VP算法是有效的. 姚瑶 吉根林关键词:分布式聚类 隐私保护 决策表中基于条件信息熵的近似约简 被引量:46 2007年 属性约简是粗糙集理论的重要研究内容,已有效应用于机器学习、数据挖掘等领域.基于条件信息熵的属性约简可有效推广代数观下的属性约简,但存在抗噪声弱且某些情况下冗余属性多的不足.为此,本文在引入决策表中基于条件信息熵的近似约简概念后,提出决策表中基于条件信息熵的近似约简算法,该算法可有效增强抗噪性,且可依据实际应用的需要有效地对冗余属性进行取舍.最后,本文侧重通过选择不同精度下的约简属性子集在Bench- mark上进行了分类器的性能测试. 杨明关键词:粗糙集 属性约简 条件信息熵 近似约简 一种基于PSVM的多类分类方法 2008年 为克服传统支持向量机不能处理交叉数据分类问题,Mangasarian等人提出一种新的分类方法PSVM,该方法可有效解决交叉数据两分类问题,但用PSVM解决多分类问题还报道不多。为此,提出一种基于PSVM的多分类方法(M-PSVM),并探讨训练样本比例与分类精度之间关系。在UCI数据集上的测试结果表明,M-PSVM与传统SVM分类性能相当,且当训练样本比例小时,效果更优;此外,在入侵检测数据集上的初步实验表明,M-PSVM可有效改进少数类的分类精度,因而为求解数据不平衡下的分类问题提供了新的思路,进一步的实验验证正在进行。 曹蓉 杨明关键词:SVM PSVM 一种基于密度的分布式聚类算法 被引量:11 2008年 对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好. 郑苗苗 吉根林关键词:聚类 分布式聚类 基于闭合频繁Induced子树的GML文档结构聚类 被引量:3 2009年 提出了一种GML文档结构聚类新算法MCF-CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF-CLU是有效的,且性能优于其它同类算法. 苗建新 吉根林 朱颖雯关键词:聚类 基于最大频繁路径的GML文档结构聚类算法 提出了一种GML文档结构聚类新算法MFPBCLU,以GML文档中的路径表示GML文档结构,挖掘所有GML文档路径中的最大频繁路径,以GML文档包含的最大频繁路径为特征进行GML文档结构聚类,聚类过程中利用全局准则函数进行... 苗建新 吉根林 朱颖雯关键词:GML 文献传递 垂直分布多决策表下基于条件信息熵的近似约简 被引量:11 2008年 目前粗糙集理论研究主要针对单个决策表,而有关分布式环境下的核求解和属性约简研究的报道不多,为此提出垂直分布多决策表下基于条件信息熵的近似约简算法.该算法在各局部站点并行求相应的条件信息熵,并通过传送部分等价类的策略,可有效降低通讯代价,提高垂直分布多决策表下基于条件信息熵的近似约简效率.算法分析和实验结果表明,所提出的算法是有效可行的. 杨明 杨萍关键词:粗糙集 条件信息熵 近似约简