公共文化服务平台

国家自然科学基金(61202227): 作品数：31 被引量：222H指数：10; 相关作者：刘慧婷赵鹏贾瑞玉周爱武李振更多>>; 相关机构：安徽大学合肥工业大学教育部更多>>; 发文基金：国家自然科学基金安徽省自然科学基金安徽省高校省级自然科学研究项目更多>>; 相关领域：自动化与计算机技术环境科学与工程更多>>

不确定数据频繁闭项集挖掘算法被引量：1: 2015年; 由于不确定数据的向下封闭属性,挖掘全部频繁项集的方法会得到一个指数级的结果。为获得一个较小的合适的结果集,研究了在不确定数据上挖掘频繁闭项集,并提出了一种新的频繁闭项集挖掘算法——NA-PFCIM。该算法将项集挖掘过程看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。该算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集(T10I4D100K、Accidents、Mushroom、Chess)上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。; 刘慧婷沈盛霞赵鹏姚晟; 关键词：不确定数据频繁项集频繁闭项集剪枝策略

单词和字符表示的协同学习: 2018年; 当前的词嵌入模型多数基于分布假设理论,这类模型将单词作为最基本语义单元,然后利用词的外部上下文信息学习词表示.然而,在类似于汉语的语言中,单词经常由多个字符组成,这些字符包含了丰富的内部信息,同时单词的语义也和这些字符的语义息息相关.考虑到当前常用词模型均忽略了字符信息,文中以中文为例,提出了单词与字符表示的协同学习模型.为了解决汉语中存在的单字符多语义和多字符单语义情况,文中提出了基于多原型的单词协同学习模型,并使用词相似任务和类比推理任务对该模型进行评估.结果显示,文中模型的词表示质量均优于其他词嵌入模型.; 刘慧婷凌超; 关键词：内部信息

频繁模式挖掘系统的设计与开发被引量：2: 2018年; 在日常生活或者相关科学研究中,使用电子设备会产生大量的数据,如何从数据中删除冗余信息,提取或"挖掘"有用信息就成了当前信息科学和技术领域的一个重要的研究方向。频繁模式挖掘作为众多挖掘算法中的一类基本算法,研究主要包括项目集合、项目序列和时间序列等各种数据中的频繁模式挖掘。频繁模式挖掘算法众多,如数据流频繁闭项集挖掘、不确定数据流的最大频繁项集挖掘和不确定数据的频繁模式匹配。该系统设计的目的是将几个课题组开发的挖掘算法进行集成,并利用可视化界面对算法的性能进行直观的比较。通过系统的可视化界面,可将解决同一问题的多个算法的运行结果放入同一张图中,方便用户查看算法的输出结构并进行算法优劣性的比较。; 王楠楠刘慧婷; 关键词：频繁模式挖掘可视化

数据挖掘在高中生综合素质评价中的应用被引量：1: 2014年; 自普通高中学生综合素质评价工作开展以来,在高等院校选拔人才时起到了辅助作用。文中引入数据挖掘技术,使其与综合素质评价工作有机地结合起来,符合时代潮流的发展趋势,具有一定的研究价值。文中把改进的基于0-1矩阵向量内积法运用到普通高中学生综合素质评价工作中,这种方法与经典Apriori算法相比,由于只需要对事物数据库进行一次扫描,所以效率比经典Apriori算法提高很多。实验结果证明用这种算法来处理学生综合素质评价数据较为合理。; 刘慧婷刘军朱永斌; 关键词：数据挖掘综合素质评价关联规则

基于移动平台的图像检索系统被引量：1: 2016年; 近年来移动终端的普及促进了移动平台上图像检索技术的发展。当用户看到感兴趣的商品的时候,他们希望能够使用终端拍下来,然后进行商品的检索并返回一些推荐的商家。为了解决这个问题,面向移动平台,构建了一个图像检索系统,通过手机等移动终端,拍摄或传输图片来检索互联网上相关的图片和信息。该系统构建了一个爬虫系统用来采集图片信息,在安卓平台上直接进行图像特征提取,通过移动终端拍摄的商品图像搜索互联网图像,返回相关网店链接并进行相关商品推荐。该系统对120万幅图片采用位置敏感哈希索引、存储和检索,既保证了结果在较小的误差范围内,也极大地降低了时间复杂度。最后用户可以根据推荐的链接进行选购。实验结果表明,该系统能够满足用户的需求,并且具有很强的实用性。; 刘强强余黎青赵鹏刘慧婷; 关键词：特征提取图像检索图像搜索引擎爬虫系统

基于最小生成树的层次K-means聚类算法被引量：18: 2016年; 针对K-means算法初始化时需要指定聚类数目,和随机选择初始聚类中心对聚类结果产生不稳定的问题,结合图论中最小生成树和层次算法的分裂、凝聚思想,提出一种基于最小生成树的层次K-means算法.该算法初始时根据数据样本生成一颗最小生成树,然后利用层次分裂思想把数据分成多个较小的簇,通过K-means算法迭代操作得到每次操作的评价函数值来判断是否进行簇的合并,进一步确定聚类簇数目.实验结果证明,该算法能够较准确地判断聚类数目,并且聚类结果的稳定性比基本K-means算法要好.; 贾瑞玉李振; 关键词：K-MEANS算法初始聚类中心最小生成树 PRIM算法

基于EMD的时间序列相似性度量算法被引量：3: 2017年; 时间序列本身具有高维、高噪声的特点。在进行相似性度量之前,需要对序列进行特征表示。针对时间序列相似性度量工作中,使用分段线性表示方法对序列进行特征表示,分段拟合效果依赖于划分粒度,若分段数和分段点选取不当,可能导致拟合效果不佳、难以准确反映序列整体形态趋势的问题,提出一种新的基于趋势的相似性度量方法。该方法将经验模态分解方法与分段线性表示方法相结合,首先用经验模态分解方法过滤细节信息,提取序列的主要形态趋势,得到趋势拟合序列。在此基础上,再用分段线性表示方法对趋势拟合序列进行分段表示,减少拟合结果对划分粒度的依赖性。最后给出序列的分段向量距离计算方法,对趋势分段序列计算加权向量距离,得到不同序列之间的相似性。仿真实验表明,该算法稳定有效、对噪声不敏感。; 贾瑞玉王瑞; 关键词：时间序列向量距离

基于滑动窗口的不确定性数据流频繁项集挖掘算法被引量：5: 2015年; 为了提高频繁项集挖掘算法的准确性,在不确定性数据流频繁项集挖掘算法SRUF-mine的基础上引入最大可能误差,提出一种基于滑动窗口的false-positive挖掘算法UFIM。UFIM算法对数据流进行分块处理,在内存中维护一个存储滑动窗口内频繁项集的概要数据结构,随着窗口的滑动对该概要结构进行增量更新。实验表明,与SRUF-mine相比,UFIM算法能获得较高的频繁项集挖掘的准确性。; 刘慧婷周开申赵鹏; 关键词：不确定性数据数据流频繁项集

不确定数据流最大频繁项集挖掘算法研究被引量：9: 2016年; 对于大型数据,频繁项集挖掘显得庞大而冗余,挖掘最大频繁项集可以减少挖出的频繁项集的个数。可是对于不确定性数据流,传统判断项集是否频繁的方法已不能准确表达项集的频繁性,而且目前还没有在不确定数据流上挖掘最大频繁项集的相关研究。因此,针对上述不足,提出了一种基于衰减模型的不确定性数据流最大频繁项集挖掘算法TUFSMax。该算法采用标记树结点的方法,使得算法不需要超集检测就可挖掘出所有的最大频繁项集,节约了超集检测时间。实验证明了提出的算法在时间和空间上具有高效性。; 刘慧婷候明利赵鹏姚晟; 关键词：最大频繁项集

基于网络编码的无线网络多路径机会路由算法被引量：5: 2014年; 提出了一个效用优化模型,以最大化整个网络的吞吐量,并在各个流之间均衡分配带宽资源。基于该模型,结合无线网络的广播特性和机会路由的思想,构造单播多路径路由,并应用网络编码简化数据调度。性能分析与仿真实验表明,算法在稠密网络及存在多个流的条件下,可以取得比同类协议更大的吞吐量、更低的网络整体开销和更合理的带宽资源的分配。; 韩莉钱焕延; 关键词：网络编码机会路由多路径

国家自然科学基金(61202227)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61202227)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈