您的位置: 专家智库 > >

吴新涛

作品数:4 被引量:24H指数:1
供职机构:大连理工大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术理学更多>>

文献类型

  • 2篇专利
  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...
  • 1篇理学

主题

  • 3篇网页
  • 3篇网页信息
  • 2篇知识
  • 2篇网页文本
  • 2篇文本
  • 2篇文本知识
  • 2篇空间知识
  • 2篇不良信息
  • 1篇信息抽取
  • 1篇信息提取
  • 1篇网页信息提取
  • 1篇网页正文
  • 1篇向量
  • 1篇向量空间
  • 1篇向量空间模型
  • 1篇包装器
  • 1篇HTML
  • 1篇抽取

机构

  • 4篇大连理工大学

作者

  • 4篇吴新涛
  • 3篇宋明秋
  • 1篇张瑞雪
  • 1篇李文立

传媒

  • 1篇大连理工大学...

年份

  • 1篇2010
  • 1篇2009
  • 2篇2007
4 条 记 录,以下是 1-4
排序方式:
基于中文标点符号的三重网页文本内容识别及过滤方法
一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题,提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网...
宋明秋吴新涛
文献传递
基于中文标点符号的三重网页文本内容识别及过滤方法
一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题,提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网...
宋明秋吴新涛
文献传递
网页正文信息抽取新方法被引量:23
2009年
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.
宋明秋张瑞雪吴新涛李文立
关键词:包装器网页信息提取
基于向量空间模型的网页信息过滤方法研究
互联网的发展带动了整个社会的发展与变革,电子商务的兴起改变了人们的生活方式,给人们的生活带来了极大便利。但随着电子商务的快速发展,安全问题越来越突出。网络钓鱼等非法站点的存在及迷信、色情、暴力和反动信息的传播严重威胁电子...
吴新涛
关键词:向量空间模型
文献传递
共1页<1>
聚类工具0