宋聚平
- 作品数:9 被引量:135H指数:4
- 供职机构:上海交通大学电子信息与电气工程学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 搜索引擎中Robot搜索算法的优化被引量:39
- 2002年
- 目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 。
- 宋聚平王永成滕伟许欢庆
- 关键词:搜索引擎超链接ROBOTPAGERANK搜索策略搜索算法
- 高效中文搜索引擎的关键技术研发
- 国家信息产业部指出,信息产业已成为我国国民经济的第一支柱产业。信息产业的进展状况将直接影响着国家的发展。因此如何高效率多角度地处理、利用信息资源是一个非常值得重视的研究课题。 随着互联网规模的迅速扩大,人们更是感到...
- 宋聚平
- 关键词:中文搜索引擎元搜索引擎
- 文献传递网络资源链接
- 搜索引擎中的信息存储技术
- 网络已经成为世界上最大的数字图书馆,目前网上信息数量仍在急剧膨胀,无用信息占有比例愈来愈大,而且网络传输速度较慢,由于网页的存储结构直接影响着查询质量和查询速度,因此网络信息的存储方式亟需改进.本文针对网络信息固有的特点...
- 宋聚平王永成
- 关键词:信息存储智能代理信息过滤文本分析搜索引擎
- 文献传递
- 对网页PageRank算法的改进被引量:68
- 2003年
- 分析了著名搜索引擎 Google采用的 Page Rank算法 ,指出其偏重旧网页、忽视专业站点以及对网页中的超链接评估不恰当等不足之处 .改进算法考虑了网页日期这一重要因素 ,并重新计算网页中超链接对网页的影响 .网页结构中蕴涵着丰富的信息 ,在 href、title等标记中文字对网页主题有重要作用 ,利用结构标记可以辅助判断网页的主题内容 .试验结果表明 。
- 宋聚平王永成尹中航滕伟
- 关键词:搜索引擎网页超链分析PAGERANK
- 面向主题的网页搜索系统被引量:19
- 2003年
- 论述一个面向主题的网页搜索系统 (SATWP) ,该系统在智能代理的辅助下具有搜索、导航、以及信息反馈等功能 .在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法 ,即从网页自身的 URL、网页间的关系以及网页的内容来判断 .SATWP采用在客户端的智能代理记录用户的浏览行为 ,并把有关信息反馈给服务器 ,服务器根据这些信息随时调整数据库中相关网页的重要性顺序 ,增加了自身的学习功能 .试验结果表明 。
- 宋聚平王永成尹中航滕伟
- 关键词:搜索引擎超链分析
- 一种基于频次统计的兼类噪声消除方法
- 2003年
- 分析了自动分类知识库中的文本兼类噪声 ,提出借助于频次统计特性来减少兼类噪声的新算法 .在进行理论分析的基础上 ,讨论了具体的实现步骤 ,并通过对新闻语料的分类实验 ,检验了降噪效果 .结果表明 ,该方法可以减少兼类概念在知识库中的冗余次数 。
- 尹中航王永成宋聚平蔡巍
- 关键词:知识库降噪自然语言处理
- XML-下一代标识语言
- HTML使Internet得到迅发展,但愈来愈多的实践表明HTML已不能满足Web的需求, 该文在介绍HTML不足的基础上,向读者推荐XML,介绍其优点、文档结构及其应用和未来。
- 宋聚平王永成
- 关键词:XML标识语言
- 文献传递
- 搜索引擎中的信息存储技术被引量:2
- 2000年
- 网络已经成为世界上最大的数字图书馆,目前网上信息数量仍在急剧膨胀,无用信息占有比例愈来愈大,而且网络传输速度较慢,由于网页的存储结构直接影响着查询质量和查询速度,因此网络信息的存储方式亟需改进。本文针对网络信息固有的特点提出一种新的文档存储结构,改进了搜索引擎的性能.其中主要包括信息的自动分类,网页相关度的计算,垃圾信息以及重复信息的过滤等技术。
- 宋聚平王永成
- 关键词:信息存储智能代理信息过滤文本分析
- 搜索引擎中信息存储结构的改进被引量:7
- 2001年
- 网络已经成为世界上最大的数字图书馆。目前网上信息数量仍在急剧膨胀 ,无用信息所占比例愈来愈大 ,而且网络传输速度较慢 ,由于数据的存储结构直接影响着查询质量和查询速度 ,因此网络信息的存储方式亟需改进。本文针对网络信息固有的特点提出一种新的文档存储结构 ,改进了搜索引擎的性能。主要内容包括信息的自动分类 ,网页相关度的计算 。
- 宋聚平王永成
- 关键词:信息存储智能代理搜索引擎因特网自动分类技术