您的位置: 专家智库 > >

杨雅婷

作品数:83 被引量:85H指数:5
供职机构:中国科学院新疆理化技术研究所更多>>
发文基金:中国科学院西部之光基金国家自然科学基金中国科学院西部行动计划项目更多>>
相关领域:自动化与计算机技术语言文字电子电信文化科学更多>>

文献类型

  • 46篇期刊文章
  • 27篇专利
  • 10篇会议论文

领域

  • 58篇自动化与计算...
  • 7篇电子电信
  • 7篇语言文字
  • 5篇文化科学

主题

  • 28篇维吾尔
  • 27篇翻译
  • 25篇维吾尔语
  • 25篇机器翻译
  • 14篇语言
  • 11篇语音
  • 11篇文本
  • 11篇存储介质
  • 10篇语音识别
  • 9篇向量
  • 8篇电子设备
  • 8篇语言模型
  • 7篇语料
  • 7篇相似度
  • 7篇抽取
  • 6篇多特征融合
  • 6篇神经网
  • 6篇神经网络
  • 5篇语料库
  • 5篇情感

机构

  • 83篇中国科学院新...
  • 46篇中国科学院大...
  • 3篇中国科学院
  • 3篇新疆师范大学
  • 3篇中国科学院研...
  • 1篇中国科学院新...
  • 1篇新疆维吾尔自...
  • 1篇新疆警察学院
  • 1篇和田师范专科...

作者

  • 83篇杨雅婷
  • 44篇王磊
  • 41篇马博
  • 35篇周喜
  • 33篇董瑞
  • 17篇李晓
  • 13篇李晓
  • 13篇米成刚
  • 11篇蒋同海
  • 7篇马玉鹏
  • 6篇赵凡
  • 3篇艾孜尔古丽
  • 2篇王磊
  • 2篇董兴华
  • 2篇陈科海
  • 2篇王轶
  • 1篇苏国平
  • 1篇李晓
  • 1篇王磊
  • 1篇吐尔洪·吾司...

传媒

  • 8篇厦门大学学报...
  • 8篇计算机工程
  • 5篇计算机应用研...
  • 4篇计算机应用与...
  • 4篇计算机工程与...
  • 3篇计算机应用
  • 3篇中文信息学报
  • 2篇清华大学学报...
  • 2篇网络新媒体技...
  • 1篇制造业自动化
  • 1篇中国科学技术...
  • 1篇北京大学学报...
  • 1篇计算机工程与...
  • 1篇兰州理工大学...
  • 1篇智能系统学报
  • 1篇计算机科学与...
  • 1篇第五届全国青...

年份

  • 20篇2023
  • 5篇2022
  • 9篇2021
  • 8篇2020
  • 7篇2019
  • 4篇2018
  • 4篇2017
  • 3篇2016
  • 3篇2015
  • 3篇2014
  • 3篇2013
  • 8篇2011
  • 6篇2010
83 条 记 录,以下是 1-10
排序方式:
维-汉统计机器翻译中维吾尔语预处理研究被引量:3
2014年
为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。
艾孜孜.吐尔逊杨雅婷吐尔洪.吾司曼周俊林李晓
关键词:维吾尔语单词标点符号
基于词缀的维吾尔谚语识别关键技术研究
2018年
在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。
穆妮热.穆合塔尔李晓杨雅婷杨雅婷周喜
关键词:维吾尔谚语
基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
本发明公开了一种基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质,涉及信息处理领域,尤其涉及文本过滤、内容监管领域。具体实现方案为:利用汉维双语将汉语关键词翻译为维吾尔语关键词;对获得的维吾尔语关键词进行...
杨雅婷艾孜麦提·艾尼瓦尔董瑞马博王磊周喜
文献传递
基于短语汉维机器翻译解码的研究及实现被引量:1
2019年
针对汉、维翻译中维语形态变化复杂、汉维语句法结构不同等造成的解码局限性问题,将解码中语言模型的评分调整为重点考虑短语衔接处的单词串的得分,引入词向量进行短语相似度计算,利用词向量将单词间隐含的语义关系加入到解码评分;调整解码的调序距离限制方法,设计一个限制解码中短语扩展的方法,使解码的调序更符合汉维翻译的实际;在此基础上,按优化的方案实现解码器。实验结果表明,优化能使译文BLEU值在基线方案基础上提升3.46,最终方案解码器的译文BLEU值为29.18。
杨世勤王磊杨雅婷杨雅婷
关键词:解码语言模型
一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质
本发明公开了一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质,该方法包括:获取多种语言的源语言文本,得到不同文本的语料集合;分别将不同文本的语料集合输入产生词向量的Glove模型中,提取源语言的语义特征,得到多...
杨雅婷罗涵天马博董瑞王磊周喜
文献传递
基于粘着性模糊规则的维汉机器翻译最大熵调序研究
2013年
针对维汉机器翻译中未登录词和译文乱序问题严重的现象,结合维吾尔语粘着性语言特点以及最大熵分类算法,提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础,在维吾尔语词级别构建粘着性规则约束,从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明,与当前主要MSD(mono、swap、discontinuous)等调序方法相比,该方法较好地体现了维吾尔语的粘着性特点,提高了译文质量。
陈科海周喜杨雅婷米成刚
关键词:形态学粘着性模糊规则最大熵
基于字符串相似度的维吾尔语中汉语借词识别被引量:6
2013年
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。
米成刚杨雅婷周喜李晓杨明忠
关键词:借词未登录词字符串相似度
基于多策略的维吾尔文网页识别方法
2017年
经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。
阿力木.木拉提艾孜尔古丽杨雅婷李晓
关键词:维吾尔文网页识别常用词向量空间模型
区域信息化水平评价方法研究被引量:4
2010年
提出贯穿区域信息化全生命周期的信息化水平评价模型及体系,运用数据仓库模型分析特征数据,给出区域信息化水平多指标分层综合评价算法,建立模糊评价矩阵,设定九分位法权重系数,逐层依次计算得到信息化水平综合评价结果,并通过实例演示评价过程,证明了该方法的优越性和普遍适用性。
杨雅婷马博苏国平蒋同海李晓
关键词:区域信息化数据仓库
面向汉维机器翻译的BERT嵌入研究被引量:1
2021年
针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言BERT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量。对比不同汉语BERT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将BERT模型应用在汉维神经机器翻译中的最佳方法。在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值(BLEU)提升1.64,有效提高汉维机器翻译系统的性能。
陈玺杨雅婷董瑞
关键词:汉维翻译
共9页<123456789>
聚类工具0