王强 作品数:7 被引量:39 H指数:3 供职机构: 哈尔滨工业大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 哈尔滨工业大学校基金资助 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 自然科学总论 更多>>
基于数据挖掘思想的网页正文抽取方法的研究 为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法.该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网... 蒲宇达 关毅 王强关键词:数据挖掘 自然语言处理 聚类 文献传递 基于Cover级别的中文信息检索技术的研究 2005年 信息检索系统如果能较精确地定位于文章中用户关心的部分必将提高用户的检索效率。基于Cover级别的检索策略就是针对上述问题提出的。基于Cover级别的检索策略以用户查询的关键词集合作为输入,在被检索文档中找到包含关键词集合的最短文本片断集作为输出。文章采用了一种经过改进的基于Cover级别的检索策略,对系统返回的文本片断作了限制,并在检索过程中使用了贪心算法(Greedy Algorithm)的思想,最后将其应用到中文信息检索系统中。实验证明,采用改进的策略比原有的基于Cover级别的检索策略在返回有效结果个数和平均排序倒数(MRR)等指标上都有了提高。 包刚 关毅 王强 赵健关键词:贪心算法 基于标题类别语义识别的文本分类算法研究 被引量:6 2007年 本文提出了一种基于标题类别语义识别的文本分类算法。算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作。实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能。 王强 关毅 王晓龙一种改进的Wu-Manber多模式匹配算法及应用 被引量:20 2006年 本文针对Wu-Manber多模式匹配算法在处理后缀模式情况下的不足,给出了一种改进的后缀模式处理算法,减少了匹配过程中字符比较的次数,提高了算法的运行效率。本文在随机选择的TREC2000的52,067篇文档上进行了全文检索实验,对比了Wu-Manber算法、使用后缀模式的改进算法、不使用后缀模式的简单改进等三种算法的匹配过程中字符比较的次数。实验结果说明,本文的改进能够比较稳定的减少匹配过程中字符比较的次数,提高匹配的速度和效率。 孙晓山 王强 关毅 王晓龙关键词:中文信息处理 多模式匹配 字符串匹配 信息检索 基于特征类别属性分析的文本分类器分类噪声裁剪方法 被引量:3 2007年 提出一种应用文本特征的类别属性进行文本分类过程中的类别噪声裁剪(Eliminating class noise,ECN)的算法.算法通过分析文本关键特征中蕴含的类别指示信息,主动预测待分类文本可能归属的类别集,从而减少参与决策的分类器数日,降低分类延迟,提高分类精度.在中、英文测试语料上的实验表明,该算法的F值分别达到0.76与0.93,而且分类器运行效率也有明显提升,整体性能较好.进一步的实验表明,此算法的扩展性能较好,结合一定的反馈学习策略,分类性能可进一步提高,其F值可达到0.806与0.943. 王强 关毅 王晓龙K-NN与SVM相融合的文本分类技术研究 被引量:10 2005年 提出了一种改进的K-NN (K Nearest Neighbor)与SVM (Support Vector Machine)相融合的文本分类算法.该算法利用文本聚类描述K-NN算法中文本类别的内部结构,用sigmoid函数对SVM输出结果进行概率转换,同时引入CLA(Classifier's Local Accuracy)技术进行分类可信度分析以实现两种算法的融合.实验表明该算法综合了K-NN与SVM在分类问题中的优势,既有效地降低了分类候选的数目,又相应地提高了文本分类的精度,具有较好的性能. 王强 王晓龙 关毅 徐志明关键词:SVM SIGMOID函数 VECTOR 文本聚类 文本分类 论系统相似的度量 本文阐明了系统相似度计算的基本原理,提出了一种新的系统相似度计算函数,论证了该函数的代数特点.作为系统相似度计算的应用之一,本文进而提出了一种新的信息检索模型-系统相似模型,论证了向量空间模型为该模型的特例,且该模型能有... 关毅 王晓龙 王强文献传递