北京市教育委员会科技发展计划面上项目(KM200610028014)
- 作品数:2 被引量:52H指数:2
- 相关作者:刘丽珍刘江华关永徐远超宋瀚涛更多>>
- 相关机构:首都师范大学北京中搜在线软件有限公司清华大学更多>>
- 发文基金:北京市教育委员会科技发展计划面上项目北京市自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Web的网络爬虫的设计与实现被引量:44
- 2007年
- 无论是站内信息检索还是特定的Web信息搜集,都离不开全文搜索引擎系统的核心模块——网络爬虫,本文详细介绍了一种设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法及主要的技术难点。该系统经实际运行,效果良好,最后给出了有待进一步改进的地方。
- 徐远超刘江华刘丽珍关永
- 关键词:搜索引擎网络爬虫信息检索
- 支持向量机在网页信息分类中的应用研究被引量:8
- 2007年
- 针对日益膨胀的网络信息,为方便用户准确定位所需的信息,将支持向量机(SVM)与二叉决策树结合起来进行网页信息的分类,并在构造决策支持向量机分类模型的基础上,进一步结合聚类的方法,解决多类分类问题,减少支持向量机的训练样本数,提高分类训练速度和分类准确率.
- 刘丽珍贺海军陆玉昌宋瀚涛
- 关键词:支持向量机决策树网页分类