李晓
- 作品数:39 被引量:63H指数:5
- 供职机构:中国科学院新疆理化技术研究所更多>>
- 发文基金:国家自然科学基金新疆维吾尔自治区重点实验室开放课题基金新疆维吾尔自治区重大科技专项更多>>
- 相关领域:自动化与计算机技术语言文字理学一般工业技术更多>>
- 一种蛋白质自相互作用的预测方法
- 本发明公开了一种蛋白质自相互作用的预测方法,该方法包括数据集的选择与建立,PSSM矩阵的生成,傅里叶描述子提取特征值,训练集和测试集的构建,分类器模型构建步骤完成,该方法是利用傅里叶描述子提取样本集的特征值,使计算机计算...
- 陈沾衡尤著宏李晓蒋同海王延斌方昱斌陈沾兴
- 基于词向量的维吾尔语词项归一化方法被引量:5
- 2018年
- 使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化。实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高。该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能。
- 罗延根李晓李晓蒋同海周喜杨雅婷
- 关键词:归一化重采样
- 基于槽位语义增强提示学习的篇章级事件抽取方法被引量:2
- 2023年
- 事件抽取旨在将非结构化自然语言文本中的事件信息以结构化形式进行识别提取。传统事件抽取方法抽取范围局限于单个句子,且依赖较大规模的标注数据,在篇章级抽取任务与低资源目标领域中表现不佳。现有研究利用提示学习方法,以模板槽位填空方式实现篇章级事件抽取,其缺点在于传统提示模板槽位对论元角色分类准确度不高,容易造成论元角色抽取错误。针对上述问题,提出一种基于槽位语义增强提示学习的篇章级事件抽取方法,在提示学习方法的基础上,将传统事件抽取范式中的论元角色语义信息融入提示模板槽位中,为模型的槽位预测生成环节提供论元类型约束,提高篇章级事件抽取的准确率。通过使预训练语言模型上下游任务保持一致,提高模型的泛化能力,同时以较低成本实现知识迁移,在低资源事件抽取场景下提升模型性能。实验结果表明,相较于表现次优的传统基线方法,在包含59种论元类型的英文事件抽取数据集、包含92种论元类型的中文数据集以及低资源数据规模下,该方法的F1值分别取得了2.6、2.9和4.0个百分点的提升。
- 李鸿鹏马博杨雅婷杨雅婷王震王磊
- 关键词:事件抽取信息抽取自然语言处理
- 强干扰下水下弱目标定位空域矩阵滤波技术被引量:2
- 2014年
- 针对多传感器阵列的水声信号匹配场处理,提出了三种空域矩阵滤波器设计方法。通过建立三个最优化问题,分别实现了:阻带整体响应误差约束条件下的通带响应误差最小、通带整体响应误差约束条件下的阻带响应最小、通带整体响应误差和阻带整体响应误差加权和最小的滤波器响应效果,推导给出三个最优化问题的最优解。将所设计的空域矩阵滤波器用于仿真数据处理,使用常规Bartlett处理器和MV处理器,实现了在水面强干扰存在情况下的水下弱目标定位。
- 郑胜家于倍韩东李晓张春华
- 关键词:匹配场处理
- 面向低资源神经机器翻译的回译方法被引量:2
- 2021年
- 神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升维汉和蒙汉翻译质量.使用第16届全国机器翻译大会(CCMT 2020)的评测数据进行实验,结果表明该方法可以有效地提升维汉和蒙汉翻译的翻译质量.
- 张文博张新路杨雅婷董瑞董瑞
- 关键词:回译
- 基于多尺度风格自适应的手写维文识别模型
- 2024年
- 基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适应模块提取序列特征;构建特征泛化融合模块对笔划特征和序列特征进行深度融合,提升识别效果。实验结果表明,该模型在真实手写维文测试集WER、CER分别下降3.75%、0.19%,在IAM数据集中验证了模型迁移性。
- 闫林王磊艾孜麦提·艾尼瓦尔杨雅婷杨雅婷
- 关键词:多尺度
- 多特征融合的文本相似性度量系统
- 本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失...
- 马博李晓蒋同海周喜王磊杨雅婷赵凡
- 文献传递
- 基于国产Linux跨平台的综合资源应用系统关键技术与应用研究
- 刘稚李晓蒋同海梁剑周喜胡彬华王磊丁景全庆军毕祥玉李桃陈俊红周宇杨晴雯王丽王晓博杜欢
- “基于国产Linux系统的综合资源应用系统关键技术与应用研究”。针对政府综合资源信息服务领域,研究整合现有政府信息资源以及政务业务的具体模式、安全策略、远程维护的关键技术和整体解决方案,同时研究开发跨平台的信息整合与发布...
- 关键词:
- 关键词:LINUX跨平台
- 基于LSTM-GAN的加油时序数据异常检测被引量:8
- 2022年
- 加油站时序数据中蕴藏着大量信息,但加油数据庞大复杂且各变量间蕴含隐性关系,目前的异常检测方法经常产生“假异常”或遗漏真实异常,无法有效挖掘加油数据中的异常点。针对这种现象,提出一种基于无监督学习的异常检测方法。通过PCA对数据进行降维,提取有效的特征信息,采用基于LSTM的GAN模型(LSTM-GAN)对加油时序数据进行检测,通过生成器和鉴别器共同得到的异常损失定义异常点。通过在加油数据集和公开数据集上的实验证明了该方法的有效性,并且相较于目前的异常检测方法具有一定提升。
- 赵飏李晓马博马博周喜
- 关键词:无监督学习时序数据异常检测
- 面向维汉神经机器翻译的双向重排序模型分析被引量:8
- 2020年
- 在维吾尔语到汉语等低资源语料库上,神经机器翻译的拟合训练容易陷入局部最优解,导致单一模型的翻译结果可能不是全局最优解。针对此问题,通过集成策略,有效整合多个模型预测的概率分布,将多个翻译模型作为一个整体;同时采用基于交叉熵的重排序方法,将具有相反解码方向的翻译模型相结合,最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明,与单一的Transformer模型相比,改进后的方法提升4.82个BLEU值。
- 张新路李晓杨雅婷杨雅婷董瑞
- 关键词:维吾尔语