长江学者和创新团队发展计划(IRT13059) 作品数:12 被引量:257 H指数:7 相关作者: 吴信东 胡学钢 胡骏 刘鹏程 吴共庆 更多>> 相关机构: 合肥工业大学 佛蒙特大学 大连理工大学 更多>> 发文基金: 长江学者和创新团队发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 生物学 更多>>
基于标签路径特征融合的在线Web新闻内容抽取 被引量:23 2016年 精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 吴共庆 胡骏 李莉 徐喆昊 刘鹏程 胡学钢 吴信东关键词:内容抽取 WEB新闻 基于种子节点选择的网络环境下多标签分类算法研究 被引量:3 2016年 多标签分类在基因分类,药物发现和文本分类等实际问题中有着广泛的应用.已存在的多标签分类算法,通常都是从网络中随机的选取节点作为训练集.然而,在分类算法执行的过程中,网络中不同节点所起的作用不同.在给定训练集数目的情况下,选择的训练集不同,分类精度也会不同.所以我们引入了种子节点的概念,标签分类从种子节点开始,经过不断推理,得到网络中其他所有节点的标签.本文提出了SHDA(Nodes Selection of High Degree from Each Affiliation)算法,即从网络的每个社团中,按比例的选取度数较大的节点,然后将其合并,处理后得到种子节点.真实数据集上的实验表明,将种子节点用作训练集进行多标签分类,能够提升网络环境下多标签分类的准确率. 吴信东 赵银凤 李磊关键词:网络 社团 基于稀疏编码多尺度空间潜在语义分析的图像分类 被引量:26 2014年 传统潜在语义分析方法无法利用图像中区域语义构成的上下文信息来获得图像目标空间分布信息,因此它丢掉了局部特征之间的空间关系信息.而基于最近邻矢量量化来构造共生矩阵具有较大的量化误差,使得特征描述缺乏鲁棒性,影响后续潜在语义分析获得特征的精确性.为了弥补这些不足,文中提出了一种基于稀疏编码的多尺度空间潜在语义分析的图像分类方法.首先通过空间金字塔方法对图像进行空间多尺度划分,然后利用稀疏编码对每个局部块特征进行软量化以形成共生矩阵,之后结合概率潜在语义分析(PLSA)获得每个局部块的潜在语义信息,再利用权值串接每个特定局部块中的语义信息得到图像多尺度空间潜在语义信息,最后用支持向量机(SVM)分类器完成图像的场景分类.在常见图像库上的实验表明,本文提出的基于稀疏编码的多尺度空间潜在语义分析方法平均分类精度比现有诸多方法均有明显提高,验证了其有效性和鲁棒性.实验还表明,空间金字塔匹配、稀疏编码共生矩阵以及PLSA降维这3个模块在该文方法中缺一不可,共同提升图像表征和分类性能. 赵仲秋 季海峰 高隽 胡东辉 吴信东关键词:图像分类 潜在语义分析 一种面向不完全标记的文本数据流自适应分类方法 2016年 现实生活中网络监控、网络评论以及微博等应用领域涌现了大量文本数据流,这些数据的不完全标记和频繁概念漂移给已有的数据流分类方法带来了挑战。为此,面向不完全标记的文本数据流提出了一种自适应的数据流分类算法。该算法以一个标记数据块作为起始数据块,对未标记数据块首先提取标记数据块与未标记数据块之间的特征集,并利用特征在两个数据块间的相似度进行概念漂移检测,最后计算未标记数据中特征的极性并对数据进行预测。实验表明了算法在分类精度上的优越性,尤其在标记信息较少和概念漂移较为频繁时。 张玉红 陈伟 胡学钢关键词:自适应 数据流 概念漂移 在线社交网络影响力分析 被引量:120 2014年 社交影响力分析是社交网络分析的关键问题之一.近十几年间,随着在线社交网络的蓬勃发展,研究人员才开始有机会在大量现实数据的基础上对社交影响力进行建模和分析,并取得了丰硕的研究成果和广泛的应用价值.文中回顾了近些年在线社交网络影响力分析的主要成果,阐述了社交影响力的相关概念和它们之间的关系,重点从网络拓扑、用户行为和交互信息等几个方面总结了影响力分析的建模和度量方法,介绍了与影响力传播密切相关的意见领袖发现和影响力最大传播问题的研究现状,并对在线社交网络影响力分析的前景进行了展望. 吴信东 李毅 李磊关键词:社会计算 一般间隙及一次性条件的严格模式匹配 被引量:9 2015年 具有间隙约束的模式匹配是序列模式挖掘的关键问题之一.一次性条件约束是要求序列中每个位置的字符最多只能使用一次,在序列模式挖掘中采用一次性条件约束更加合理.但是目前,间隙约束多为非负间隙,非负间隙对字符串中每个字符的出现顺序具有严格的约束,一定程度上限定了匹配的灵活性.为此,提出了一般间隙及一次性条件的严格模式匹配问题;之后,理论证明了该问题的计算复杂性为NP-Hard问题.为了对该问题进行有效求解,在网树结构上构建了动态更新结点信息的启发式求解算法(dynamically changing node property,简称DCNP).该算法动态地更新各个结点的树根路径数、叶子路径数和树根-叶子路径数等,进而每次可以获得一个较优的出现;之后,迭代这一过程.为了有效地提高DCNP算法速度,避免动态更新大量的结点信息,提出了Checking机制,使得DCNP算法仅在可能产生内部重复出现的时候才进行动态更新.理论分析了DCNP算法的时间复杂度和空间复杂度.大量实验结果验证了DCNP算法具有良好的求解性能. 柴欣 贾晓菲 武优西 江贺 吴信东基于后缀树和后缀数组的带有通配符多模式匹配研究 模式匹配问题在大数据时代下的信息检索、文本挖掘、网络安全以及生物信息学等很多领域都具有重要的应用价值,尤其是带有通配符的多模式近似匹配,相比正则表达式、单模式匹配和精确模式匹配,可以解决更加复杂的模式匹配问题,如从海量异... 刘纳关键词:多模式匹配 通配符 后缀树 后缀数组 文献传递 基于块密度加权标签路径特征的Web新闻在线抽取 被引量:3 2017年 Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum. 吴共庆 刘鹏程 胡骏 胡学钢关键词:内容抽取 WEB新闻 带任意长度通配符的模式匹配 被引量:5 2014年 基因序列中,许多病毒并不是简单的直接复制自己,而是相邻字符间插入或者删除序列片段,如何从序列数据中检索这些病毒具有重要的研究价值.提出了一个更普遍的问题,带任意长度通配符的模式匹配问题(Pattern matching with arbitrary-length wildcards,PMAW),这里模式中不仅可以有多个通配符约束,而且每个通配符的约束可以是两个整数,也可以从整数到无穷大.给定序列S和带通配符的模式P,目标是从S中检索P的所有出现和每一次出现的匹配位置,并且要求任意两次出现不能共享序列中同一位置.为了有效地解决该问题,设计了两个基于位并行的匹配算法MOTW(Method of ocurrence then window)算法和MWTO(Method of window then ocurrence)算法.同时,MWTO算法进行细微改动就可以满足全局长度约束.实验结果既验证了算法求解问题的正确性,又验证了比相关的模式匹配算法具有更好的时间性能. 强继朋 谢飞 高隽 胡学钢 吴信东关键词:通配符 位并行 基因序列 周期性一般间隙约束的序列模式挖掘 被引量:12 2017年 序列模式挖掘是从给定序列中发现出现频率高的模式的一种方法,目前已在诸多领域被广泛应用.假定子模式p_i和p_j(i 武优西 周坤 刘靖宇 江贺 吴信东关键词:序列模式挖掘 APRIORI性质 人工智能