您的位置: 专家智库 > >

国家自然科学基金(60073030)

作品数:34 被引量:618H指数:14
相关作者:武港山王继成张福炎周源远袁春风更多>>
相关机构:南京大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划教育部科学技术研究重点项目更多>>
相关领域:自动化与计算机技术文化科学电子电信更多>>

文献类型

  • 34篇期刊文章
  • 2篇会议论文

领域

  • 34篇自动化与计算...
  • 4篇文化科学
  • 1篇电子电信

主题

  • 12篇信息检索
  • 7篇WEB
  • 6篇索引
  • 5篇引擎
  • 5篇语义
  • 5篇搜索
  • 5篇搜索引擎
  • 5篇网络
  • 4篇信息抽取
  • 4篇语义分析
  • 4篇图像
  • 4篇潜在语义
  • 4篇潜在语义分析
  • 4篇中文
  • 4篇向量
  • 4篇向量空间
  • 4篇向量空间模型
  • 4篇包装器
  • 4篇抽取
  • 3篇信息处理

机构

  • 36篇南京大学

作者

  • 23篇武港山
  • 13篇王继成
  • 12篇张福炎
  • 7篇周源远
  • 5篇袁春风
  • 5篇潘春华
  • 5篇李昕
  • 4篇盖杰
  • 3篇王怡
  • 3篇郑刚
  • 3篇陈康
  • 3篇常敏
  • 3篇奚伟鹏
  • 3篇蒋凯
  • 3篇王强
  • 3篇王强
  • 2篇王庆一
  • 2篇朱永盛
  • 2篇李道远
  • 1篇吴海军

传媒

  • 12篇计算机应用研...
  • 9篇计算机工程
  • 3篇计算机研究与...
  • 2篇计算机工程与...
  • 1篇南京大学学报...
  • 1篇计算机学报
  • 1篇计算机应用与...
  • 1篇广西师范大学...
  • 1篇小型微型计算...
  • 1篇情报学报
  • 1篇软件学报
  • 1篇计算机科学
  • 1篇NCIRCS...

年份

  • 1篇2006
  • 4篇2005
  • 10篇2004
  • 9篇2003
  • 9篇2002
  • 3篇2001
34 条 记 录,以下是 1-10
排序方式:
Web图像清洗技术的研究与实现被引量:3
2002年
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性 .
张波王继成王强王强
关键词:WEB特征提取决策树图像过滤
面向网上论坛的信息抽取技术被引量:10
2005年
在分析了网上论坛内部的信息组织模式和链接结构的基础上,提出了一套面向网上论坛的语义话题线索抽取框架,叙述了其具体 实现。为信息抽取定义了完善的抽取规则规范,提供了用户定制规则的可视化工具和论坛站点中语义信息单元自动下载抽取的后台引擎。
奚伟鹏李昕蒋凯武港山
关键词:信息抽取包装器
Web智能信息服务系统的设计与实现被引量:3
2004年
Web信息的快速增长和人们对信息需求的不断提高 ,使得用户越来越难获得其需要的信息。为了解决这些问题 ,介绍了一个智能化的Web信息服务系统的设计及其实现 ,它能够使用户更好地获得并使用信息。对系统的基本框架。
陈康奚伟鹏蒋凯武港山
关键词:信息服务关键词提取信息分类信息检索
潜在语义分析理论及其应用被引量:54
2004年
潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。
盖杰王怡武港山
关键词:潜在语义分析上下文语义向量空间模型
面向网络的全文检索中索引文件的组织被引量:34
2002年
为了提高网络中全文检索的效率 ,需要对Web页面中内容进行分析、建立全文索引 ,并对索引的结构进行高效率的组织。讨论了索引的组织结构及其实现方法 ,并分析了不同的组织方法的性能。
颜维龙盖杰武港山袁春风
关键词:字表倒排表索引
基于移动爬虫的专用Web信息收集系统的设计被引量:12
2003年
搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分析、建索引,然后提供检索服务。文章介绍了一种更加有效的建立Web索引的方法,该方法是基于移动爬虫(MobileCrawler)的。在此提出的爬虫首先被传送到数据所在的站点,在那里任何不需要的数据在传回搜索引擎之前在当地被过滤。这个方法尤其适用于实施所谓的“智能”爬行算法,这些算法根据已访问过的Web页面的内容来决定一条有效的爬行路径。移动爬虫是移动计算和专业搜索引擎两大技术趋势的结合,能够从技术上很好地解决现在通用搜索引擎所面临的问题。
潘春华冯太明武港山
关键词:互联网搜索引擎WEB信息收集系统
Web页面清洗技术的研究与实现被引量:28
2002年
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。
周源远王继成郑刚张福炎
关键词:WEB页面清洗技术文本块DOM解析器信息检索
信息过滤技术研究被引量:19
2003年
As the rapidly growing information on Web, information filtering techniques have been more and morewidely used. This paper introduces two main filtering methods ,named content-based and collaborative filtering; con-trastively describes the key techniques in information filtering,including the representation,creation and rebuilding ofuser profile ,and similarity computing.
毛颖周源远王继成张福炎
关键词:信息过滤搜索引擎信息检索互联网
基于Web的信息检索技术综述被引量:35
2005年
随着信息技术的发展,特别是Web的不断普及和应用,Web上的信息飞速增长,形成了巨大的信息资源。因此,如何从巨量的信息中快速有效地提取出所需的信息,成为迫切需要解决的问题。文章分别介绍了几种传统的信息检索模型和基于潜在语义分析的信息检索模型,以及自动问答系统,并在多方面对它们进行比较,最后展望了问答系统的应用前景。
蒋凯武港山
关键词:信息检索潜在语义分析
多信息块Web页面的信息抽取被引量:36
2002年
提出了一个采用新的抽取规则的包装器 ,结合采用基于文档结构抽取规则和基于特征Pattern匹配抽取规则包装器的优点 ,可以适用于含有多个信息块的Web页面。
王庆一王继成周源远袁春风
关键词:WEB页面信息抽取包装器抽取规则
共4页<1234>
聚类工具0