范亚平
- 作品数:2 被引量:7H指数:1
- 供职机构:西安交通大学电子与信息工程学院更多>>
- 发文基金:中央高校基本科研业务费专项资金中国博士后科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于条件随机场模型和文本纠错的微博新词词性识别研究被引量:7
- 2016年
- 针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.
- 韩彦昭乔亚男范亚平李孟超万迪昉
- 关键词:条件随机场噪音数据
- 基于CRFs和文本纠错的微博新词词性识别研究
- 根据微博平台开放性、低门槛以及微博数据充斥大量噪音的特点,同时结合条件随机场在词性标注特征提取的优势,提出对微博数据降噪,然后使用CRFs对未登录词词性标注,并利用谐音词搭配词典检错纠错标注错误谐音词的方法.实验结果表明...
- 韩彦昭乔亚男范亚平李孟超万迪昉