杜阿宁
- 作品数:10 被引量:49H指数:3
- 供职机构:哈尔滨工业大学计算机科学与技术学院计算机网络与信息安全技术研究中心更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- Web挖掘在中文文本自动分类中的应用
- 该文以Web挖掘在文本分类中的应用为切入点,在深入研究Web挖掘的理论、模型和算法基础上,对Web挖掘的形式化定义和挖掘算法的发展体系进行界定,并设计了一个基于Web挖掘基础理论的中文文本自动分类平台. Web挖掘是指从...
- 杜阿宁
- 关键词:文本分类WEB挖掘统计学习理论
- 文献传递
- 面向网络信息过滤的文本分类算法研究
- 随着网络技术发展,根据用户兴趣进行网络信息过滤的需求越来越大。网络信息过滤的核心技术是分类算法的应用,即根据专家事先标记的样例建立用户兴趣描述模型,应用模型实现信息过滤。本文主要介绍各种分类算法的核心技术和发展路线,研究...
- 杜阿宁秦宝山
- 关键词:文本分类算法网络信息过滤
- 文献传递
- 互联网舆情信息挖掘方法研究
- 及时掌握舆情动态、积极引导社会舆论,是维护社会稳定和执政党执政安全的重要举措。随着Internet迅猛发展,互联网拥有越来越庞大的用户群,且逐渐发展成为群众发布信息、获取信息和传递信息的主要载体。因此,基于互联网的舆情信...
- 杜阿宁
- 关键词:互联网网页过滤
- 面向网络信息过滤的文本分类算法研究
- 随着网络技术发展,根据用户兴趣进行网络信息过滤的需求越来越大。网络信息过滤的核心技术是分类算法的应用,即根据专家事先标记的样例建立用户兴趣描述模型,应用模型实现信息过滤。本文主要介绍各种分类算法的核心技术和发展路线,研究...
- 杜阿宁秦宝山
- 关键词:文本分类算法网络信息过滤
- 文献传递
- 中文交互式网络搜索引擎及其自学习能力被引量:20
- 2003年
- 论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于自动机思想分词是INSE提出的新概念,应用于中文分词可以满足最大匹配且速度较快。INSE自学习能力的实现依靠神经网络的BP算法。该算法应用于交互式网络搜索引擎可以提供更加精确的查询结果。
- 杜阿宁方滨兴胡铭曾云晓春
- 关键词:自学习能力WWW向量空间模型自动机BP算法信息库
- 面向网络报文流分析的频繁项监测技术研究
- 无限数据流中频繁项监测问题定义为对给定输入数据流在任意时刻输出一个当前所有输入数据项中出现频率超过阈值的频繁数据类型及频率值的列表,它对于大规模网络流量的测量与分析具有重要意义。本文基于网络报文流分析的应用需求,归纳出一...
- 杜阿宁方滨兴
- 文献传递
- 面向网络报文流分析的频繁项监测技术研究
- 无限数据流中频繁项监测问题定义为对给定输入数据流在任意时刻输出一个当前所有输入数据项中出现频率超过阈值的频繁数据类型及频率值的列表,它对于大规模网络流量的测量与分析具有重要意义。本文基于网络报文流分析的应用需求,归纳出一...
- 杜阿宁方滨兴
- 文献传递
- 一个基于决策树的中文Web文本挖掘系统
- 在Web挖掘的基本概念、基本应用和一般文本分类的基础上,本文从系统功能、模块设计和核心算法三方面详细介绍了一个具有自学习能力的基于决策树的中文Web文本挖掘系统.
- 杜阿宁方滨兴胡铭曾
- 关键词:WEB挖掘决策树文本挖掘搜索引擎
- 文献传递
- 基于Biased SVMs的中文Web过滤系统
- 通过对汉语表达习惯、网页结构特性和用户一般浏览模式的分析,归纳出用户兴趣描述包括关键查询词和查询关联度两部分信息,并把过滤任务根据查询关联度不同划分为相关过滤、相似过滤、相近过滤3个层次,提出了可根据训练向量分布特性和用...
- 杜阿宁方滨兴
- 关键词:二叉搜索树浏览模式
- 文献传递
- 网络流量分析中的频繁项监测技术研究被引量:4
- 2006年
- 无限数据流中频繁项监测问题定义为对给定输入数据流在任意时刻输出一个当前所有输入数据项中出现频率超过阈值的频繁数据类型及频率值的列表,它对于大规模网络流量分析具有重要意义。本文基于网络报文流分析的应用需求,归纳出一般意义上的报文流分析模型和频繁项监测问题抽象定义,并据此对当前典型的频繁项监测算法进行分析比较。本文还提出一种在有界存储中进行频繁项监测的高精度改进算法,实验结果表明该改进算法满足高速网络报文流的应用需求。
- 杜阿宁程晓明
- 关键词:信息安全