曾洪波
- 作品数:3 被引量:2H指数:1
- 供职机构:暨南大学信息科学技术学院更多>>
- 发文基金:广东省科技计划工业攻关项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于类别裁剪和模糊理论的文本分类算法研究
- 文本分类已经成为处理大量文本信息的关键技术,并已成为数据挖掘领域中一个重要的研究方向。KNN文本分类算法是众多文本自动分类技术中性能相对突出的一个,同时,它也有自身的不足之处,第一、分类速度慢,KNN分类算法把所有的计算...
- 曾洪波
- 关键词:文本分类KNN
- 文献传递
- 基于网页聚类的Web信息自动抽取被引量:1
- 2011年
- 针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。
- 邱韬奋杨天奇曾洪波
- 关键词:WEB信息抽取网页聚类
- 一种基于模糊理论的KNN文本分类算法被引量:1
- 2011年
- 传统的KNN文本分类算法在处理不均匀数据时,尤其是小型数据,容易受到边缘数据的干扰,导致分类效果明显下降。对此,本文提出一种基于模糊理论的KNN文本分类算法,该算法根据模糊理论的思想计算样本的隶属度函数,更合理地处理训练样本权值。实验表明,基于模糊理论的KNN算法能有效的弱化这些干扰,并在分类准确度上也有一定的提高。
- 曾洪波杨天奇邱韬奋
- 关键词:文本分类KNN隶属度函数