王忠效
- 作品数:10 被引量:46H指数:4
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信语言文字更多>>
- 汉语文本动态字母表0阶模型算术编码被引量:2
- 2000年
- 本文探讨汉语文本的0 阶统计模型的构造方法,提出了一个卓有成效的汉语文本压缩算法。仅仅凭借这一最初级的模型,汉语文本的编码效率已经超过LZ与Huffman 编码的混合算法。由于0 阶统计模型是各种高阶统计模型的基础,所以,本文对汉语以及其他大字符集文种( 如日文、朝鲜文)
- 王忠效范植华
- 关键词:汉语文本统计模型
- 将WS文件全面转换成普通文本文件的实用程序
- 1994年
- WordStar(WS)文件格式转换的源程序,是大家都关心的问题。这里我们介绍的程序避免了某些现行程序的不足,除了满足对文件内容进行正确转换这一最基本的要求外,其突出特点在于能够完好地保证WS文件的排版格式,从而免除了一般转换程序在对文件进行转换之后对手工维护文本排版格式的要求。
- 王忠效
- 关键词:应用程序文本文件
- 汉字异或动态散列分组查找算法被引量:4
- 1998年
- 本文根据汉字内码特点,提出一个适合汉字信息处理用的汉字动态散列分组查找算法。该算法采用简单的异或散列函数将汉字进行分组,组内取链式结构顺序查找。由于散列均匀,其渐近时间复杂度为O(1)。
- 王忠效范植华
- 关键词:散列函数汉字信息处理
- 全文增补中
- 基于字符串匹配的通用数据压缩算法被引量:1
- 1995年
- 本文主要介绍基于字符串匹配的数据压缩算法原理,该算法从多方面对著名的LZ77算法进行了改进。我们的算法所用到的工作缓冲区是一个循环历史表,摈弃了输入符号超前缓冲区;结果,匹配过程是边接收输入边进行,无需等待一组输入数据填满超前缓冲区才开始,同时,最大匹配长度不再受超前缓冲区大小的限制,而且,不再需要做大量的平移工作缓冲区的操作.另外,还涉及一些其他方面的改进,包括改等长压缩码为变长码和引入匹配位置滑动表技术等。
- 王忠效
- 关键词:数据压缩字符串匹配
- 汉语文本压缩研究及其应用被引量:12
- 1997年
- 汉语文本压缩至今很少受到重视,然而,作为许多计算机应用系统的支撑技术,其重要性毋庸置疑。本文结合汉语文本的特征对现行文本压缩技术进行评述,指出汉语文本理论上可能获得的平均压缩比率(〉3.9)及现行压缩算法所能达到的水平(1.6左右)。此外,讨论了汉语文本压缩的研究方向以及几种典型的应用。
- 王忠效
- 关键词:数据压缩
- UNIX系统C语言联机帮助系统的设计与实现
- 1994年
- 本文较详细地介绍了UNIX环境下C语言的联机帮助系统chelp的设计与实现。该系统由一个辅助的shell程序和联机帮助系统自身构成。前者的作用在于加速系统的开发,使得在增删及修正帮助信息时系统的更新得以自动完成,后者包括各类帮助信息的正文,涉及ANSIC与UNIXC标准库函数的用法以及可被程序员任意剪裁的示例程序。
- 王忠效牛跟英
- 关键词:操作系统C语言联机帮助系统
- 汉字自适应散列分组查找算法被引量:1
- 2001年
- 在文献 [1]的基础上 ,本文提出了一个适合中文信息处理用的汉字自适应散列分组查找算法。由于引进了动态遗忘机制以及根据频率动态调整汉字顺序 ,算法的平均查找长度成倍缩短 ,从而能够更有效地保证涉及大量汉字信息检索操作的应用对时间性能的要求。此外 ,提出了一个与文献 [1]相比计算量更小。
- 王忠效范植华
- 关键词:散列函数中文信息处理信息检索
- 动态字母表算术编码被引量:4
- 2001年
- 研究了动态字母表统计模型的有关性质以及建立动态字母表模型应予以注意的问题 .理论与实验表明 ,动态字母表模型在没有牺牲时间性能的情况下 ,能够提高预测的准确性 ,从而获得更好的编码效率 .动态字母表对于建立大字符集文种 (如汉语 )文本压缩的统计模型具有重要意义 .
- 王忠效范植华
- 关键词:数据压缩信源编码
- 汉语文本自适应压缩算法研究
- 研究汉语文本自适应压缩算法还是探讨汉语文本自适应模型的有效途径.汉语文本自适应模型是汉语分词、汉字识别、词性标注和文本自动校对等汉语自适应处理系统的重要基础.该文综述了数据压缩、尤其是文本压缩的研究与发展情况,并对汉语文...
- 王忠效
- 关键词:数据压缩文本压缩MARKOV模型
- 文献传递
- 关于Lempel-Ziv 77压缩算法及其实现的研究被引量:29
- 1996年
- 本文在研究著名的LZ77压缩算法的基础上,讨论了对这一算法的种种改进。新的算法同样适用于任何类型的数据文件,而且无论是压缩速度还是压缩效率均好于LZ77算法。我们的算法所用到的工作缓冲区是一个循环缓冲区,不再包括一个输入符号超前缓冲区;结果,匹配过程是边接收输入边进行,无需等待一组输入数据填满超前缓冲区才开始,同时,最大匹配长度也不再受超前缓冲区大小的限制,而且,避免了大量的平移工作缓冲区的操作。另外,还涉及一些其他方面的改进,主要包括改等长压缩码为变长码和引入匹配位置滑动表技术等。本文详细讨论了各种改进及其对算法性能的影响。
- 王忠效姜丹
- 关键词:数据压缩计算机