吴虎子
- 作品数:4 被引量:64H指数:3
- 供职机构:武汉理工大学计算机科学与技术学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文文本分类中基于词性的特征提取方法研究被引量:38
- 2007年
- 在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法———基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数方面都有显著改善。
- 胡燕吴虎子钟珞
- 关键词:中文文本分类向量空间模型特征提取
- 基于Google Web API的网页获取技术研究被引量:3
- 2007年
- 介绍了一种简单但实用的方法,通过在JAVA应用程序中集成Google Web API,实现搜索和收集URL、获取网页并保存到本地磁盘的网页管理库中。
- 胡燕吴虎子
- 关键词:网页获取GOOGLEWEBAPI搜索引擎
- 基于改进的kNN算法的中文网页自动分类方法研究被引量:20
- 2007年
- 概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.
- 胡燕吴虎子钟珞
- 关键词:特征词文本相似度KNN算法
- 中文网页获取及自动分类技术研究
- 随着互联网技术的不断发展,INTERNET上的信息日益丰富,已经成为人们日常工作和生活中获取信息的重要来源。但是,由于INTERNET所固有的开放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信息。因此...
- 吴虎子
- 关键词:网页获取中文分词文本分类算法自动分类技术网页分类中文网页
- 文献传递