您的位置: 专家智库 > >

吴金星

作品数:13 被引量:18H指数:3
供职机构:内蒙古大学蒙古学学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划内蒙古自治区教育厅基金更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 6篇会议论文
  • 5篇期刊文章
  • 2篇学位论文

领域

  • 6篇自动化与计算...
  • 6篇语言文字

主题

  • 8篇蒙古语
  • 6篇词性
  • 6篇词性标注
  • 5篇切分
  • 5篇词法分析
  • 5篇词干
  • 5篇词干提取
  • 5篇词语
  • 5篇词语切分
  • 4篇蒙古文
  • 4篇古文
  • 3篇有向图
  • 3篇语料
  • 3篇语料库
  • 3篇蒙古语语料库
  • 3篇CRF
  • 2篇地名
  • 2篇有向图模型
  • 2篇统计建模
  • 2篇图模型

机构

  • 13篇内蒙古大学
  • 9篇中国科学院
  • 4篇河南师范大学

作者

  • 13篇吴金星
  • 6篇长青
  • 5篇姜文斌
  • 3篇那顺乌日图
  • 2篇赵理莉
  • 2篇刘群
  • 2篇乌日力嘎
  • 2篇杨振新
  • 1篇张聪品
  • 1篇丽丽

传媒

  • 2篇中文信息学报
  • 2篇第三届全国少...
  • 1篇信阳师范学院...
  • 1篇计算机工程与...
  • 1篇计算机应用研...
  • 1篇第十三届中国...
  • 1篇民族语言文字...

年份

  • 2篇2016
  • 2篇2015
  • 4篇2011
  • 5篇2010
13 条 记 录,以下是 1-10
排序方式:
CRF和词典相结合的蒙古文地名识别研究被引量:4
2016年
蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。
吴金星丽丽杨振新
关键词:CRF词典
基于CRF的蒙古文人名自动识别研究被引量:2
2016年
以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于规则的系统取得了较好的结果。
吴金星那顺乌日图杨振新
关键词:条件随机场
蒙古语词法分析的有向图模型被引量:3
2011年
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。
姜文斌吴金星长青那顺乌日图刘群赵理莉
关键词:词法分析词语切分词性标注词干提取有向图
蒙古语有向图形态分析器的判别式词干词缀切分
蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型...
姜文斌吴金星乌日力嘎那顺乌日图刘群
关键词:蒙古语词法分析词干提取有向图模型
文献传递
蒙古语词法分析的生成式统计建模
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词级及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻面了词干到...
姜文斌吴金星长青赵理莉刘群那顺乌日图
关键词:蒙古语词法分析词语切分词性标注词干提取统计建模
文献传递
蒙古语词干提取单带非线性自动机构造
2010年
设计并实现了一种基于单带非线性的蒙古语词干提取自动机模型.该模型采用单输入带自动机模型,使用一种具层次的主从式非线性蒙古词语表示方式.所设计的单带非线性自动机是新的解决蒙古词干提取问题的方法.
赵理莉张聪品吴金星长青
关键词:自动机
蒙古语语料库加工集成平台的构建
语料库是按照一定的原则收集和组织的真实的自然语言作品的集合。语料库经过加工,才能成为有用的资源,能够为各种自然语言处理系统所利用。所谓加工,就是把语料库中隐藏的信息显现出来的过程。根据粒度的不同,语料库的加工分为词法标注...
吴金星
关键词:蒙古语语料库词组搭配
CRF和词典相结合的蒙古文地名识别研究
语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究.本文首次实现了基于条件随机场模型的蒙古文地名识别.首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙...
吴金星丽丽杨振新
关键词:地名识别词典蒙古文
蒙古语有向图形态分析器的判别式词干词缀切分被引量:5
2011年
蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率提高了7个百分点。
姜文斌吴金星乌日力嘎那顺乌日图刘群
关键词:蒙古语词法分析词性标注词干提取有向图判别式
蒙古语语料库基本加工规范初探
论文从蒙古语的构词法出发,参考《北京大学现代汉语语料库基本加工规范》简单地研究了蒙古语的语料库基本加工规范。这项研究在分析了蒙古语的词性标注语料的基础上归纳总结了蒙古语的语料基本加工规范,这里所说的基本加工是指词语切分和...
吴金星长青
关键词:蒙古语语料库词语切分词性标注
文献传递
共2页<12>
聚类工具0