贵州省优秀科技教育人才省长资金项目([2000]171)
- 作品数:2 被引量:8H指数:2
- 相关作者:王东熊世桓靳宁向程冠更多>>
- 相关机构:贵州师范学院贵州财经大学更多>>
- 发文基金:贵州省优秀科技教育人才省长资金项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种新颖的汉字字形相似度计算方法被引量:6
- 2013年
- 为了利用字形描述技术识别相似汉字,提出了三元组递归表示的汉字字形相似度计算方法。该算法把汉字表示为汉字结构、字首部件和字尾部件三元组,以部件为运算对象,字型结构为运算符,将汉字描述为前缀表达式。通过建立汉字字形相似度计算递归模型,使计算过程被逐层分解为原子部件间的相似性比较,从而更好地降低了计算的复杂性。然后将其用于计算汉字的最佳相似字。实验结果表明,该方法与人的认知结果吻合度很好,算法是有效可行的。
- 王东熊世桓
- 关键词:汉字字形形近字相似度计算前缀表达式三元组
- 基于频繁2-项集的贝叶斯分类器被引量:2
- 2013年
- 针对NB分类方法中过于严格的独立性假设,应用频繁2-项集为分类测度,通过放宽独立性假设达到改善分类性能的目的.在训练阶段使用类似Apriori关联规则发现算法挖掘并建立频繁2-项集库,当测试新文档时,文档特征通过竞争搭配生成基于测试文档的频繁2-项集序列,优先选择类词频率和置信度综合评分最高的频繁2-项集进入概率估算过程,并用频繁2-项集的综合评分置换NB的单项特征概率估计.在不同数据集的实验中显示,基于频繁2-项集的贝叶斯分类器(TIB)的分类精度整体上好于NB分类器,是一种有效的分类方法.
- 王东熊世桓向程冠靳宁
- 关键词:文本分类朴素贝叶斯分类器关联规则项集频繁项集