您的位置: 专家智库 > >

北京市教委资助项目(KM200510772008)

作品数:4 被引量:29H指数:3
相关作者:施水才赵捧未许文李渝勤都云程更多>>
相关机构:北京信息科技大学西安电子科技大学更多>>
发文基金:国家自然科学基金北京市教育委员会科技发展计划北京市教委资助项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 2篇会议论文

领域

  • 6篇自动化与计算...

主题

  • 3篇搜索
  • 2篇新闻
  • 2篇引擎
  • 2篇搜索引擎
  • 2篇索引
  • 2篇分布式
  • 2篇RSS
  • 1篇新闻博客
  • 1篇新闻领域
  • 1篇信息提取
  • 1篇信息提取方法
  • 1篇引擎设计
  • 1篇邮件
  • 1篇邮件过滤
  • 1篇语料
  • 1篇元搜索
  • 1篇搜索引擎设计
  • 1篇中文
  • 1篇中文垃圾邮件
  • 1篇中文垃圾邮件...

机构

  • 6篇北京信息科技...
  • 2篇西安电子科技...
  • 1篇大连工业大学

作者

  • 5篇施水才
  • 2篇赵捧未
  • 1篇都云程
  • 1篇吕学强
  • 1篇张志斌
  • 1篇肖诗斌
  • 1篇王弘蔚
  • 1篇翁勍力
  • 1篇李渝勤
  • 1篇封硕
  • 1篇程涛
  • 1篇许文
  • 1篇刘峰

传媒

  • 2篇情报杂志
  • 2篇现代图书情报...

年份

  • 5篇2007
  • 1篇2006
4 条 记 录,以下是 1-6
排序方式:
基于元搜索的聚类挖掘引擎被引量:2
2007年
针对目前搜索引擎返回结果的海量性和无结构性,构建一个基于元搜索的聚类挖掘引擎,旨在利用元搜索引擎返回的结果,提高搜索结果聚类效率,快速有效地为用户提供一个搜索结果结构视图,从而进行进一步的知识发现。介绍了搜索引擎和挖掘引擎的主要功能及差别,应用向量空间模型对元搜索结果进行处理。介绍当前主要的聚类算法—K-means划分法和层次凝聚聚类法,并在此基础上提出基于元搜索结果将两种聚类算法相结合的聚类方法。
翁勍力施水才赵捧未
关键词:元搜索文本聚类
一种通用HTML网页主题信息提取方法被引量:17
2007年
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
许文都云程李渝勤施水才
关键词:DOM信息提取相关度
基于贝叶斯方法的中文垃圾邮件过滤技术综述
本文首先介绍了朴素贝叶斯方法的基本原理,分析了决定基于贝叶斯的中文垃圾邮件过滤器的性能的几个因素,然后比较了几种基于该方法的过滤器,最后总结了制约中文垃圾邮件过滤技术发展的两个重要因素。
张志斌施水才吕学强
关键词:贝叶斯方法邮件过滤
文献传递
基于RSS的分布式博客搜索引擎的研究被引量:9
2007年
针对传统搜索引擎对频繁更新的博客网站实时性搜索较差的问题,提出一种基于RSS的分布式博客搜索引擎的系统框架,通过划分网络区域,采取分布式的思想采集和索引博客网页的RSS结构化数据,从而达到了对频繁更新站点的实时性搜索,也降低了搜索引擎的存储成本和数据冗余程度。
封硕赵捧未施水才
关键词:搜索引擎分布式RSS
基于大规模语料库的新闻领域新词挖掘
以真实的人民日报语料为处理对象,提出了一种基于大规模语料库的新闻领域新词挖掘的方法。首先对标有时间戴标签的大规模语料进行串频统计和子串归并,建立历史词汇库;然后与历史词库进行比较,从而生成对象新闻语料中的候选新词;最后根...
程涛施水才张玉杰吕学强
关键词:新词串频统计
文献传递
基于RSS的分布式新闻博客搜索引擎设计被引量:4
2007年
针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。
刘峰施水才肖诗斌王弘蔚
关键词:RSSPASTRYBLOOM
共1页<1>
聚类工具0