教育部人文社会科学研究基金(08JC870013)
- 作品数:7 被引量:25H指数:3
- 相关作者:聂卉黄贵鹏张津华更多>>
- 相关机构:中山大学更多>>
- 发文基金:教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术文学更多>>
- 基于网页规划布局的页面主题内容抽取被引量:1
- 2011年
- 以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现。
- 聂卉张津华
- 关键词:网页信息抽取主题分析
- 面向聚类主题的文本特征描述被引量:1
- 2009年
- 本文提出一种面向聚类主题的文本特征表示方法,即以聚类的主题概念来刻画文本的特征向量,将文本描述提升至语义层次。首先,通过聚类,形成一组以向量形式表达的隐含主题概念,再将基于词条空间的文本特征向量投影至这组主题概念,以隐含的主题概念来描述文本。实验分析表明,建立在概念空间之上的文本向量实质上是文本矢量与主题概念的关联度,能够突出表现文本内容的主题特征,更好地反映文本的语义内容,从而有效提高模型在文本检索与分类等领域的应用性能。而基于聚类形成的概念空间的维数由于可主观调整,又能有效地约减概念空间的维数,提高模型的应用实效。
- 聂卉
- 关键词:文本聚类文本特征
- 基于GATE语义标注的Web信息的自动抽取被引量:4
- 2010年
- 重点研究基于语义标注样本的Web信息自动抽取的实现方法。借助自然语言处理框架GATE,首先引入领域本体对样本网页内容进行语义标注,精确定位出待抽取的语义项,并据此将样本网页解析为S-DOM树。从S-DOM树中抽取出语义项的特征描述,形成样本实例并采用机器学习算法归纳抽取规则,自动生成包装器。抽取过程中,通过比较网页结构的相似度,系统能够感知网页的变化,主动学习并扩展规则库。试验结果表明,由于精确定位保障了学习样本的质量,小样本学习生成的包装器能够达到较为理想的查全率和查准率。
- 聂卉黄贵鹏
- 关键词:WEB信息抽取语义标注包装器
- 结合逻辑推理与内容计算实现面向学术网络的智能检索被引量:2
- 2013年
- 本体描述语言OWL-DL的表达能力局限于描述逻辑,因不能挖掘推理实例间的关联而影响本体的实际利用率。针对这一问题,研究基于SWRL的知识库推理机制,SWRL机制通过引入规则推理扩展本体知识库中的语义关联,使隐性知识显性化,推理结果更完善。该框架被用于解决面向学术资源网络的隐含知识发现问题,同时融合内容计算来发掘学术文献间的主题关联。本文提出的方法及策略在原型系统中得以检验,实验证明其合理性、可行性及有效性。
- 聂卉
- 关键词:本体推理SWRL
- 树编辑距离在Web信息抽取中的应用与实现被引量:10
- 2010年
- 引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。
- 聂卉黄贵鹏
- 关键词:WEB信息抽取结构相似度WEB聚类
- 基于网页结构相似度的Web信息抽取被引量:4
- 2011年
- 本文重点探讨基于编辑距离的网页相似度算法在Web抽取系统中的应用与实现。通过结合基于URL及编辑距离的网页结构相似度的计算方法,抽取系统在抽取过程中能够检测网页结构的变化,从而主动做出判断,选择适应规则进行抽取或通过主动学习自动扩展规则库。结构相似度计算赋予系统感知网页结构变化的能力,系统通过主动自我更新与调整,能更好地适应面向实际应用的异构资源的获取。算法的可行性和效率在原型系统中得以验证。
- 聂卉
- 关键词:WEB信息抽取结构相似度
- 分块布局下的主题型网页的内容抽取被引量:3
- 2012年
- 本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法。算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块。进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述。这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。
- 聂卉张津华
- 关键词:网页分块网页去噪