黑龙江省教育厅科学技术研究项目(11521008)
- 作品数:7 被引量:14H指数:3
- 相关作者:马瑞民顾洪博张继怀吴亚娟王小龙更多>>
- 相关机构:东北石油大学大庆市让胡路区政府更多>>
- 发文基金:黑龙江省教育厅科学技术研究项目黑龙江省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 改进的k-均值算法在聚类分析中的应用被引量:4
- 2010年
- 介绍了在聚类中广泛应用的经典k-均值算法,并针对其易受随机选择初始聚类中心和孤立点的影响的不足,给出了改进的k-均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行了改进。并做了改进前后的对比实验和应用。结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择初始聚类中心的影响也有所降低。
- 顾洪博张继怀
- 关键词:K-均值算法初始聚类中心孤立点
- 一种简单的流式数据动态分类算法
- 2009年
- 针对篮球比赛中各项流式数据,利用数据流的概念离散化预处理并结合改进的朴素贝叶斯分类算法及阈值方法,在有限的内存中设计出一种动态的分类挖掘,即设立最小有用信息阈值删除垃圾信息;在信息属于可用信息的情况下,利用阈值从连续的数据流中对数据进行分类并发现新类.实验表明该方法的正确性和有效性.
- 马瑞民邹会文王浩畅
- 关键词:数据流数据预处理阈值朴素贝叶斯分类算法
- 基于窗口与运算的数据流降载方法
- 2009年
- 提出了一种新颖的局部降载方法,该方法通过滑动窗口与运算对数据流上相邻的滑动窗口中输出速率较大的基本窗口进行合并处理,解决CPU过载问题,达到了降载的目的。理论分析与运算结果表明所提出的降载方法是有效的。
- 马瑞民吴亚娟
- 关键词:数据流降载
- 基于孤立点和初始质心选择的k均值算法的改进与应用被引量:4
- 2009年
- 针对聚类中广泛应用的经典k均值算法随机选择初始质心和易受孤立点影响的不足,给出了二次改进的k均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行改进,并做了改进前后的对比实验。结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低。
- 顾洪博苏冬娜
- 关键词:K均值算法孤立点
- 一种基于变窗口的数据流连续查询方法
- 2009年
- 目前对数据流连续查询的研究工作大部分基于滑动窗口,窗口大小固定不变.本文从内存资源有限性与查询结果精确性角度出发,采用可变窗口技术,在缓存中加入窗口控制器,当数据到达缓存时,根据用户提出查询具体问题和数据流速情况,窗口分配算子对其进行窗口大小的划分.使得在内存资源有限的情况下,通过动态改变滑动窗口大小,充分利用系统资源,降低内存使用率的同时,使连续查询的查询结果都在允许的误差范围内,此方法经过验证是可行的.
- 吴亚娟马瑞民王小龙赵建民
- 关键词:数据流连续查询
- 多数据流上的联机方差分析研究
- 2007年
- 多数据流上的联机方差分析是一个有意义的研究问题。针对以元组为单位流入的具有相同属性集的多支单数据流组成的多数据流,提出了分别对每支单数据流进行蓄水池抽样,构造一一对应于各单数据流的若干个多快照窗口,即两者之间是双射关系,可以将多快照窗口串行置于主存中,将元组包含的属性与多快照窗口中的各个快照窗口一一对应,且使得同一快照窗口中的各基本窗口与取自其对应的单数据流的属性值样本一一对应,然后对这些相互独立的样本进行方差分析。按顺序串行处理各个多快照窗口中的数据,就可以用串行化的方法来实现并行的多数据流上的联机方差分析。理论分析与实验表明,该方法是合理的和有效的。
- 王小龙马瑞民
- 关键词:多数据流双射
- 基于孤立点和初始质心选择的k-均值改进算法被引量:7
- 2009年
- 介绍了在聚类中广泛应用的经典k-均值算法,针对其随机选择初始质心和易受孤立点的影响的不足,给出了一种改进的k-均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始质心的选择上进行了改进,并做了改进前后的对比试验。试验结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低。
- 顾洪博张继怀
- 关键词:K-均值算法孤立点