国家重点基础研究发展计划(2009CB326201)
- 作品数:2 被引量:10H指数:2
- 相关作者:尼玛扎西完么扎西更多>>
- 相关机构:西藏大学青海师范大学更多>>
- 发文基金:长江学者和创新团队发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 藏语自动分词中的几个关键问题的研究被引量:7
- 2014年
- 在分析现有的藏语自动分词方法基础上,该文通过分析藏文构词规则、句法结构、词的前后词性关系、后加字的添接法和格助词的用法等来重点研究了未登录词、紧缩词和交集型歧义的识别及处理方法,并提出了"重组法","排除—还原法"和"词性规则法"三种方法。经测试,在文学类、诗歌类、医学类和新闻类等大小为1M的藏语语料中未登录词、紧缩词和交集型歧义的识别准确率分别达到99.84%、99.95%和92.02%。
- 完么扎西尼玛扎西
- 关键词:未登录词交集型歧义
- 小字符集现代藏文排序技术的研究被引量:3
- 2013年
- 构成藏文音节的字母具有一定的顺序,ISO/IEC10646(Tibetan)中每个藏文字符规定了排序码,但是藏文音节的构造复杂性使得藏文不能直接按构成藏文音节的字母顺序来排序,也不能直接应用这些排序码,提出了基于ISO/IEC10646(Tibetan)的藏文排序算法,主要思想是:从文本中读入藏文音节,并把它转化为一维的字母串;识别基字及调整构成藏文音节的字母(构件)顺序,并且在缺构件位置上添加相应的空格符;用快速排序法对藏文音节串进行排序;构成藏文音节的字母(构件)顺序调回到原来的顺序,去除空格符,并输出。
- 完么扎西尼玛扎西
- 关键词:藏文音节