潘丽娜
- 作品数:5 被引量:8H指数:2
- 供职机构:西北师范大学计算机科学与工程学院更多>>
- 发文基金:教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于云模型的模糊数据挖掘研究与应用
- 2013年
- 针对目前各领域数据的复杂性、概念边界的模糊性、需求的不确定性,该文提出了一种基于云模型的模糊数据挖掘分析方法,采用了云模型在定性语言值和定量数值之间的不确定转换模型,为定性与定量相结合的数据处理分析提供了有力的手段。其中包括:对数据进行概念和特征的模糊识别;建立隶属云模型,刻画数字特征;通过统计、计算、分析得到实际需求的分类信息。实验结果表明了该分析方法能在大量的复杂数据空间中挖掘出有价值的信息,符合实际应用。
- 党辉王治和潘丽娜
- 关键词:数据挖掘云模型
- 基于可拓关联函数的数据流聚类算法研究
- 随着传感器技术的日益普及和信息社会的快速发展,许多新兴应用领域中出现了实时连续、海量无限和快速变化的数据,这些数据以不同的更新速率连续地流进和流出计算机系统,学术界将它们定义为数据流。面对这种新型的数据形式,仍然运用传统...
- 潘丽娜
- 关键词:数据流聚类算法数据形式聚类特征
- 文献传递
- 一种基于滑动窗口的一趟数据流聚类算法被引量:1
- 2014年
- 在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.
- 程军锋王治和刘佳潘丽娜
- 关键词:数据流聚类
- 基于关联函数的数据流聚类算法被引量:5
- 2013年
- 传统数据流聚类算法大多基于距离或密度,聚类质量和处理效率都不高。针对以上问题,提出了一种基于关联函数的数据流聚类算法。首先,将数据点以物元的形式模型化,建立解决问题所需要的关联函数;其次,计算关联函数的值,以此值的大小来判断数据点属于某簇的程度;然后,将所提方法运用到数据流聚类的在线离线框架中;最后,采用真实数据集KDD-CUP99和随机生成的人工数据集进行算法的测试。实验结果表明,所提方法的聚类纯度在92%以上,每秒能处理约6300条记录,与传统算法相比,处理效率有了较大的提高,在维度和簇数目方面的可扩展性较强,适用于处理大规模的动态数据集。
- 潘丽娜王治和党辉
- 关键词:数据流聚类物元关联函数
- 基于混合概率潜在语义分析模型的Web聚类被引量:2
- 2012年
- 在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H-PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型,通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的H-PLSA模型和页面聚类的H-PLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的k-medoids算法。设计并构建了H-PLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。
- 王治和王凌云党辉潘丽娜
- 关键词:WEB聚类概率潜在语义分析潜在主题