白硕
- 作品数:106 被引量:1,148H指数:18
- 供职机构:上海证券交易所更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理政治法律哲学宗教更多>>
- 事实库、规则库的一体化全文索引算法被引量:4
- 2006年
- 在模式推理的计算过程中,为了快速、高效地检索到所需要的事实、规则,必须对事实库、规则库统一进行有效的组织。面对这个课题,传统的倒排索引方法已经无能为力。为此,本文给出一种新的算法,它能够对事实库、规则库统一建立一体化全文索引。在本算法的基础上,从汉语处理的实际情况出发,本文提出一种改进的算法,进一步提高了算法的效率。实验结果进一步表明,通过本算法建立的全文索引,能够快速检索到模式推理所需要的事实、规则,为模式推理工作的进行,打下了良好的基础。文章最后介绍了本算法在中文问答系统中的具体应用。
- 王树西白硕
- 关键词:事实库规则库索引问答系统
- 一种基于空间映射及尺度变换的聚类框架被引量:2
- 2010年
- 传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映射到一组具有良好区分度的方向所构建的坐标系中,以统计各个簇的分布特性,然后根据这些分布特性对各个坐标轴进行尺度变换,以归一化语料中各个类簇的分布。如上两步操作伴随算法迭代执行,直至算法收敛。该文将M-R框架应用到K-means算法及谱聚类算法上以验证其性能,在国际标准评测语料上的实验表明,应用了M-R框架的K-means及谱聚类在所有语料集上获得了全面的性能提升。
- 曾依灵许洪波吴高巍程学旗白硕
- 关键词:计算机应用中文信息处理文本聚类空间映射
- 一种快速开发测试的装置及方法
- 本发明提供一种快速开发测试的装置及方法,快速开发测试的装置包括开发配置模块、结构加载模块、数据操作模块和网页渲染模块。其中开发配置模块用于生成页面代码和配置数据源,结构加载模块能够将所述页面代码解析成显示部分和数据信息部...
- 林丽丽武剑锋王泊张涛万阳李沁白硕
- 文献传递
- 基于扩展FAST协议的金融消息压缩方法被引量:2
- 2012年
- 为降低金融交换消息的大小,近年来已出现QuickFast、OpenFast等基于FAST1.1协议的金融消息压缩方法。然而现有方法不支持压缩率更高的FAST1.2协议,也无法支持面向过程的开发运行环境。提出基于扩展FAST的金融消息压缩方法FASTX,不仅可以达到更好的编码效率和速度,还为在面向过程编程模式下实现FAST1.2提供了新的方法。实验结果表明FASTX编码效率十分高,只需约DBF1/4的大小就可表示相同的内容,与其他几种常用数据格式也进行了对比,验证了新方法的可行性和有效性。
- 徐广斌武剑锋王泊黄寅飞胡汉英刘凯林征白硕
- XML数据相似度研究被引量:10
- 2005年
- XML数据的大量出现为信息检索、数据挖掘、智能信息处理提供了机遇和挑战,而相似度计算是XML文档检索、挖掘和深层次智能处理的基础,对相似度计算进行研究具有非常重要的意义。在对XML数据特征进行深入分析的基础上,提出了一种递归相似度计算方法,实验结果表明该方法具有较好的效果。
- 张丙奇白硕赵章界
- 关键词:XML相似度语义递归算法VSM模型
- 一个集成了COM和CORBA的脚本语言被引量:12
- 2001年
- 提出了一个集成了 COM和 CORBA两种分布式对象系统的简单的脚本语言—— GSCRIPT.该语言使用自动化编程接口和动态调用接口来分别操纵在网络中的 COM对象和 CORBA对象 .GSCRIPT是平台独立的 ,同一 GSCRIPT程序可以在多种操作系统和硬件平台上运行 .同时 ,也详细介绍了 GSCRIPT解释器的体系结构和提供事件服务的方法 ,它们也是
- 付岩白硕李国杰
- 关键词:面向对象分布式对象脚本语言COMCORBA
- WSS:一个基于NS2的蠕虫模拟系统被引量:4
- 2006年
- 网络蠕虫严重威胁着互联网的安全,然而由于其爆发所具有的突然性和大规模性,使得蠕虫研究面临巨大挑战.本文介绍了一个基于N S2的蠕虫模拟系统—W SS.该系统的建立主要分为三部分:首先通过处理BGP路由表信息来获取模拟中用到的In ternet抽象网络,然后以传染病学模型为基础对蠕虫传播进行建模,最后将两者在N S2中相结合实现对蠕虫传播的模拟.实验证明,W SS能够在实验室环境中获取同实际蠕虫爆发时类似的统计数据,在理解蠕虫的宏观行为、预测蠕虫的流量、传播速度及危害等方面有着广泛的应用前景.
- 马铭白硕
- 关键词:蠕虫NS2
- Kad网络节点资源探测分析被引量:5
- 2010年
- Kad网络中存在数以亿计的共享资源,而其中有相当一部分可被评定为敏感资源。为深入了解Kad网络上资源尤其是敏感资源的特征,运用Kad网络采集器:Rainbow对节点拥有的文件资源进行探测分析。该文发现:1)文件流行度和文件所对应的文件名数量都近似符合Zipf分布;2)利用同一个"文件内容哈希"(即file-content-hash)的多个文件名的共现词可以更准确地进行敏感判别;3)敏感资源占随机样本的6.34%,且敏感资源中74.8%为video文件。
- 刘祥涛龚才春刘悦白硕
- 关键词:对等网络KAD网络
- 多模式合一的“图检索”算法被引量:1
- 2006年
- 多模式合一,又称为联立合一,是一个有着重要研究价值的课题。在问答系统的研究中,多模式合一作为一种新的研究途径,具有较高的应用价值,也因此受到较高的关注和研究。本文首先介绍了多模式合一的相关定义,然后给出了多模式合一的一个具体实例,并对多模式合一的计算过程进行了分析。在此基础上,重点给出了多模式合一的算法——“图检索”算法。实验结果进一步表明,本算法可以有效地解决多模式合一问题。最后,介绍了本算法在中文问答系统中的具体应用。
- 王树西白硕
- 关键词:问答系统
- Web信息采集中的哈希函数比较被引量:11
- 2006年
- 在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
- 吴丽辉白硕张刚张凯
- 关键词:WEB信息采集哈希函数URL