史树敏
- 作品数:89 被引量:192H指数:6
- 供职机构:北京理工大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学语言文字环境科学与工程更多>>
- 一种基于加密平行语料的藏汉神经机器翻译方法
- 一种基于加密平行语料的藏汉神经机器翻译方法,属于自然语言处理中的机器翻译技术领域。本方法针对藏汉翻译任务,首先使用34个藏文辅音字母制作藏文字母表,根据字母表对藏汉平行语料中的藏语句子使用凯撒加密技术进行单字母替换,获得...
- 史树敏依西降参
- 一种基于问题生成的文本生成语义评价方法
- 本发明涉及一种基于问题生成的文本生成语义评价方法,属于自然语言处理技术领域。本方法基于问题生成,对于候选文本和参考文本,首先进行命名实体识别并标记实体在文本中的位置,然后将实体作为答案通过问题生成模型生成问题。使用机器阅...
- 史树敏陈世琛苏日海
- 一种计算机硬件测试装置
- 本发明公开了一种计算机硬件测试装置,包括直流电源、第一二极管至第六二极管、第一电阻至第四电阻、第一三极管至第四三极管、第一电容、第二电容、变压器和灯泡,与现有技术相比,本发明用于在计算机硬件进行测试时,能够消除硬件上的静...
- 史树敏刘东升
- 文献传递
- 一种基于目标语重排序的藏汉语言神经机器翻译方法
- 本发明公开了一种基于目标语重排序的藏汉神经机器翻译方法,属于自然语言处理中的机器翻译技术领域。本方法针对藏汉翻译任务,首先使用调序模型将汉语单语句子重排序成藏语语序,然后使用藏汉双语词典将重排序好的汉语单语句子中的词语用...
- 史树敏依西降参
- 一种融入词边界信息的中文嵌套命名实体识别方法
- 本发明涉及一种融入词边界信息的中文嵌套命名实体识别方法,属于自然语言处理中的信息抽取技术领域。本方法结合了中文场景特有的语言形态问题,利用外部的词表向模型中融入词级别信息,对于边界敏感的嵌套命名实体识别任务,模型更加关注...
- 史树敏杨志坤黄河燕
- 基于领域本体的汉语共指消解及相关技术研究
- 共指是自然语言篇章和对话中普遍存在的现象。共指使篇章主题更加突出,表述更加连贯与简洁;但它也给自然语言处理带来了不确定性。共指消解是消除这种指代形式带来的不确定性的过程。随着基于篇章真实文本处理需求的大量涌现,共指消解显...
- 史树敏
- 关键词:汉语共指消解
- 文献传递
- 一种应用组合特征的中文未登录词词性猜测研究被引量:4
- 2010年
- 未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜测方法是有效的,汉字偏旁的加入能显著提高词性猜测的准确性,开放试验的准确率达到94.67%.实验还初步证明,将汉字偏旁作为内部特征,在词法分析方面,具有一定的实用价值.
- 张海军冯冲史树敏黄河燕
- 关键词:中文分词未登录词条件随机域模型
- 面向代码相似度检测的指纹选取方法被引量:4
- 2010年
- 代码相似度检测是代码抄袭检测的核心组成部分,对于营造良好的学习氛围、提高知识产权保护意识具有重要作用。总结了应用指纹技术检测代码相似度的基本思路,分析了几种常见的指纹选取方法的优缺点,提出一种改进的面向代码相似度检测的指纹选取方法。该方法能够从疑似抄袭代码集中去除由代码编写规则产生的虚假相似代码对,有效获得代码之间准确的相似度值。
- 黄柳柳黄河燕史树敏
- 关键词:相似度检测数字指纹
- 基于迁移学习的社交评论命名实体识别被引量:4
- 2022年
- 神经网络模型可以有效地处理通用领域命名实体识别,然而在标注语料匮乏和包含大量噪声的特定领域,其性能通常会下降。针对这一问题,提出一种迁移学习神经网络模型TL-BiLSTM-CRF。利用双向长短时记忆网络提取具有字符级别形态特征的字符向量,结合具有语义、语序等特征信息的词向量作为输入,构建基本模型;在基本模型中引入词适应层,通过典型相关性分析算法弥合源域和目标域词向量特征空间的差异,对基本模型进行迁移。在社交媒体文本中的实验结果表明,该算法在Twitter数据集上F1值为64.87%,优于目前最好的模型。
- 张晓李业刚王栋史树敏
- 关键词:社交媒体
- 一种结合外部知识的文本向量检索方法
- 本发明涉及一种结合外部知识的文本向量检索方法,属于开放域文档检索应用技术领域。本方法旨在文本向量空间模型的框架中,引入语言本身的句法结构和词性信息来获得问题的子条件结构,将问题表示成若干个子条件,同时通过BM25算法召回...
- 史树敏刘宏玉黄河燕