中央级公益性科研院所基本科研业务费专项(200810025) 作品数:7 被引量:47 H指数:5 相关作者: 左万利 王英 赫枫龄 彭涛 朱会峰 更多>> 相关机构: 吉林大学 北京科技大学 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 中央级公益性科研院所基本科研业务费专项 更多>> 相关领域: 自动化与计算机技术 更多>>
本体定义及本体代数 被引量:3 2010年 基于现有的本体定义,采用函数式描述语言精确定义了本体建模基元,给出一种新的本体形式化描述,并给出了本体间近义关联的定义,在新本体形式化描述和本体间近义关联定义的基础上,提出一种具有封闭性的本体代数定义,同时结合函数式描述语言,给出了其形式化描述. 王俊华 左万利 赫枫龄 王英关键词:形式化描述 基于多分类器的Deep Web入口发现 Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发... 王英 左万利 王鑫 彭涛关键词:本体 主题爬行 决策树 文献传递 传统Item-Based协同过滤推荐算法改进 传统item-based协同过滤算法根据项目之间的相似性来选取最近邻居.然而,现存的几种相似性度量方法都存在相应的弊端,因此只根据相似性无法找到准确可靠的最近邻.根据对两项目共同评分的用户个数,建立项目近邻等级,提出了结... 李雪 左万利 赫枫龄 王英关键词:协同过滤 推荐系统 文献传递 一种基于本体的文本聚类方法 被引量:12 2010年 基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性. 朱会峰 左万利 赫枫龄 彭涛 纪文彦关键词:本体 WORDNET 使用机器学习对汉语评论进行情感分类 被引量:5 2009年 针对汉语评论的多种特征使用机器学习方法(如贝叶斯、最大熵和支持向量机),解决了汉语评论的情感分类问题.实验结果表明,机器学习方法对汉语评论的分类效果较好,支持向量机的表现最好.句子级别和评论级别的准确率分别达到88.26%和91.79%. 白鸽 左万利 赵乾坤 曲仁镜关键词:情感分类 贝叶斯分类器 最大熵 支持向量机 主题爬行中的隧道穿越技术 被引量:11 2010年 由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的. 彭涛 孟宇 左万利 王英 胡亮关键词:主题爬行 网页分块 TARGET LENGTH 基于启发式信息的Deep Web查询接口属性抽取 电子商务网站以查询接口的方式提供商务信息,查询接口也是隐藏在后端的Deep Web数据库模式信息的载体.有效解析查询接口是访问Deep Web资源的第1步,但是由于查询接口在不同的设计模式和开发语言下实现,所以导致了属性... 梁浩 左万利 任斐 赫枫龄关键词:电子商务 查询接口 语义关系 启发式信息 文献传递 Deep Web查询转换研究 由于Web数据库具有自治性和异构性的特点,造成了各查询接口在内容、形式以及查询能力上都不尽相同,使得用户的查询请求受限于其给定的查询接口的表达能力,这给查询转换的准确性带来了更大的挑战。因此,对Deep Web查询转换进... 王英 左万利 王鑫 彭涛关键词:本体 查询转换 文献传递 一次性求解多个SAT问题 被引量:1 2010年 在实际应用中通常需要求解对应CNF(Conjunctive Normal Form)公式之间仅相差几个子句的一系列SAT(Satisfiability Problem)问题,但目前绝大多数SAT求解算法都是针对单一SAT问题设计的。为此,基于DPLL提出了nDPLL算法,并在随机问题上对该算法的效率进行测试。实验结果表明,nDPLL算法能一次性求解多个SAT问题,对于特定范围的CNF公式集具有较高的效率,CNF公式集的规模越大、相近因子越高、子句数和变量数的比值越大,则nDPLL算法的效率越高。 郑黎辉 左万利关键词:可满足性 基于多个领域本体的文本层次被定义聚类方法 被引量:11 2010年 传统的聚类方法常常将文本中关键词的相似度作为聚类的依据,丢失了很多重要的语义信息,导致聚类结果不够准确且计算量大。提出了一种基于多个领域本体的文本层次聚类方法,利用多个领域本体将用关键词表示的文本特征向量表示为与之匹配的概念向量集,定义文本相似度的计算公式,设计并实现基于多个领域本体的文本凝聚聚类算法。实验结果表明,该方法从概念层次上表示和处理文本,降低了聚类对象空间的维度,减少了计算量,提高了文本聚类的精确度和聚类效率。 张爱琦 左万利 王英 梁浩关键词:领域本体 相似度计算 凝聚层次聚类