钟军
- 作品数:4 被引量:15H指数:2
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 维吾尔语领域术语抽取研究
- 随着新科技、新现象、新概念和新事物的出现,越来越多的领域术语进入到了人们的语言使用行列中,其大大地丰富了人们语言的词汇。另外,在信息化技术迅猛发展的今天,社会科学已上升到一个崭新的层次,其给人们的日常生活和生产带来了翻天...
- 钟军
- 关键词:维吾尔语条件随机场互信息
- 文献传递
- 维吾尔语多词领域术语的自动抽取被引量:4
- 2015年
- 多词领域术语抽取是自然语言处理技术中的一个重点和难点问题,结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段:1语料预处理,包括停用词过滤和词性标注;2对字串取N元子串,利用改进的互信息算法和对数似然比率计算子串内部的联合强度,结合词性构成规则,构建候选维吾尔语多词领域术语集;3利用相对词频差值,得到尽可能多的维吾尔语多词领域术语;4结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%,召回率为73.19%,验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。
- 田生伟钟军禹龙
- 关键词:维吾尔语互信息
- Web文本中维吾尔语领域术语的自动发现被引量:1
- 2012年
- 针对维吾尔语领域术语获取难度大,人工扩充领域术语工作量大、效率低等特点,利用词汇共现原理,以维吾尔语连接词和互信息(MI)为工具,快速扩充原始维吾尔语领域术语;建立了以维吾尔语领域术语为特征模板,利用条件随机场(CRF)模型实现Web文本中维吾尔语领域术语的自动发现方法,并在此基础上实现长维吾尔语领域术语的自动发现。实验表明,对短维吾尔语领域术语的自动发现准确率为97.59%,召回率为93.38%,对长维吾尔语领域术语的自动发现正确率达到55.72%。
- 钟军田生伟禹龙
- 关键词:维吾尔语互信息条件随机场
- 基于双层模型的维吾尔语突发事件因果关系抽取被引量:11
- 2014年
- 针对传统事件因果关系识别覆盖范围小和人工标注代价高等不足,提出了一种基于双层模型的维吾尔语突发事件因果关系抽取方法.该方法采用分治思想,将因果关系抽取问题转化为对事件序列的两次模式识别标注.采用Bootstrapping算法,在第一次模式识别时,标注因果关系的语义角色,并将标注的语义角色标签作为新的特征传递给第二层模式识别,用于因果关系边界标注.该方法用于维吾尔语突发事件显式因果关系的抽取准确率为85.39%,召回率为77.53%,证明了本文提出的方法在维吾尔语主题突发事件因果关系抽取上的有效性和实用性.
- 钟军禹龙田生伟吐尔根.依布拉音
- 关键词:因果关系维吾尔语突发事件BOOTSTRAPPING