闫雷鸣
- 作品数:8 被引量:17H指数:3
- 供职机构:东南大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 有效挖掘闭合组合序列模式
- 2010年
- 序列模式的挖掘是近年来的研究热点之一,目前很多研究都集中在闭合频繁项集与闭合序列模式的挖掘,较少涉及更加复杂、有重要应用价值的组合序列模式。针对任意长度和任意组合次数的频繁组合序列模式,提出了一种挖掘全部闭合的组合序列的算法CloCSP。为克服指数量级的候选序列进行闭合检验的困难,提出了既能生成频繁组合序列,又能有效剪枝,并同时完成闭合检验的混合扩展策略,该策略无需维护候选集。实验表明,CloCSP算法能够有效挖掘出隐藏在序列数据中,尤其是稠密数据集内的闭合组合序列模式,有助于揭示更加复杂的序列模式。
- 闫雷鸣孙志挥张柏礼杨明姚蓓
- 关键词:数据挖掘
- 时序基因表达数据非线性相关双聚类算法
- 为聚类非线性相关的数据对象,引入广义信息论中二次互信息作为相似性度量,利用矩阵理论降低了二次互信息的计算量,并结合滑动窗口技术,建立了一种时序数据非线性相关模型.在此基础上提出了适用于时序基因表达数据的确定性双聚类算法M...
- 闫雷鸣孙志挥
- 一种基于二次互信息的双聚类算法被引量:4
- 2006年
- 双聚类模型有助于聚类存在相关性的局部模式。论文提出了一种可识别多种相关模式的双聚类算法,以二次互信息作为相关性标准,并以Parzen窗口法有效估算高维变量之间的互信息;同时提出了最大相关维簇的概念。算法以多个最大相关维簇为种子,通过迭代细化聚类,可有效地发现高维数据环境内相关的长模式。真实基因表达数据的实验证明了算法的有效性。
- 闫雷鸣孙志挥
- 关键词:基因表达数据
- k-APPRP:一种基于划分的增量数据重发布隐私保护k-匿名算法被引量:8
- 2009年
- 针对现实数据集动态增加和多次发布的隐私保护需求,本文在分析增量更新数据匿名若干概化方式基础上,提出了防止数据重发布过程中发生隐私泄漏的单调概化原则,并利用该原则,设计一个基于划分的增量数据重发布k-匿名算法k-APPRP.理论分析和实验结果表明,算法k-APPRP可安全且高效地实现连续增长数据集重发布的隐私保护,同时保证发布数据具有较高的数据质量.
- 吴英杰倪巍伟张柏礼闫雷鸣孙志挥
- 关键词:隐私保护K-匿名概化
- 基于二次互信息的双聚类算法研究及应用
- 作为一种近年来才出现的、新颖的聚类算法,双聚类算法侧重于对子空间内的相似模式进行聚类,这种算法在高维数据的聚类方面具有良好的应用前景。已经证明,双聚类问题是NP-Hard问题,已有的双聚类算法都面临着如何有效聚类数据对象...
- 闫雷鸣
- 关键词:后缀树时序数据基因表达数据
- 文献传递
- 复杂网络动态模式挖掘若干算法研究
- 复杂网络的挖掘研究拥有广泛的应用领域,例如生物网络、化学网络、Internet、合作网和社会网络等。挖掘动态网络模式已经引起了极大的关注,这是因为现实世界中大多数的复杂系统都是动态演化的,可以用动态可变的网络来描述,其蕴...
- 闫雷鸣
- 关键词:复杂网络动态模式
- 文献传递
- 联合聚类非线性相关的时序基因表达数据被引量:5
- 2008年
- 为聚类非线性相关的数据对象,引入广义信息论中二次互信息作为相似性度量,利用矩阵理论降低了二次互信息的计算量,并结合滑动窗口技术,建立了一种时序数据非线性相关模型.在此基础上提出了适用于时序基因表达数据的确定性联合聚类算法MI-TSB.该算法将时序数据转化为抽象字符序列,然后插入到MI-泛化后缀树中,避免了穷举各种组合,从而快速索引全部聚类结果.实验结果显示MI-TSB算法具有良好的运行性能,成功聚类出非线性相关的对象;利用Gene Ontology对聚类结果进行基因注释,也验证了聚类结果的生物学意义.
- 闫雷鸣孙志挥吴英杰张柏礼
- 关键词:联合聚类生物信息学基因表达数据
- 一种时序数据局部相关对象聚类算法
- 2007年
- 针对高维时序数据中局部相关模式的聚类问题,建立了一种基于相关子模式的spCluster模型,讨论了该模型与平均平方残值的关系.并以此模型为基础,提出了适用于时序数据的确定性双聚类算法sp-TSC,该算法首先利用spCluster模型将局部相关的数据对象符号化,然后将字符序列插入到泛化后缀树中,利用后缀树的性质避免了穷举局部相关子模式的各种组合,有效减小了搜索空间,从而可以在数据矩阵尺寸的线性时间内发现全部最大δ-spCluster.理论分析和实验表明,该算法是高效可行的.
- 闫雷鸣孙志挥张柏礼
- 关键词:时间序列后缀树