公共文化服务平台

北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心: 作品数：15 被引量：106H指数：7; 相关作者：潘凡赵璞王克祥更多>>; 相关机构：山东理工大学计算机科学与技术学院中国科学院信息工程研究所更多>>; 发文基金：国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术更多>>

合作机构

一种基于共享度模型的改进Rete算法被引量：8: 2017年; 专家系统是人工智能领域的重要分支,其中知识表示和知识推理是专家系统的重要组成部分.Rete算法是一种高效的模式匹配算法,能够解决专家系统中推理效率的问题,但是Rete算法在构建Rete网络和推理过程中存在空间和性能方面问题.本文采取有穷自动机理论的思想,阐述了Rete算法中的模式共享度和节点共享度模型,提出了一种Rete网络构建和推理算法来降低Rete网络的复杂度,提升Rete网络推理的速度.最后实验结果表明,本算法能够降低网络复杂度,提升推理速度.; 孙新严西敏尚煜茗欧阳童董阔; 关键词：专家系统 RETE算法有穷自动机推理机

基于最小割图分割的社区发现算法被引量：3: 2017年; 该文证明了模块度最大化问题可以被转换成为原网络上的最小割图分割问题,并且基于该证明提出了一种高效的社区发现算法。同时,该文创新性地将模块度理论与当今比较流行的统计推理模型相结合:首先,这些统计推理模型被转化为模块度最大化问题中的零模型;其次,统计推理模型中的目标函数被修改并应用于本文的最优化算法中。实验结果显示,无论是在真实世界网络还是在人工生成网络中,该文提出的算法均具有高效和稳定的发现社区的能力。; 王亚珅黄河燕冯冲; 关键词：模块度

RocketTC:一个基于FPGA的高性能网络流量分类架构被引量：12: 2014年; 基于深包检测技术的流量分类方法可以达到95%以上的识别率和准确率.然而,由于计算复杂性高、存储消耗大等原因,主流软件方法只能提供百兆(线速率)处理能力,而且不能处理大量流并发的情况.文中提出一个基于深包检测技术的芯片级流量分类架构RocketTC,通过对应用层协议特征、匹配引擎和流管理策略进行优化,使其支持万兆级数据吞吐率.RocketTC具有两个核心模块:基于FPGA的流管理器和动态可重构的分类引擎阵列,前者实现万兆吞吐率下的流表管理,后者快速检测流量特征并支持动态协议特征更新特性.文中提出的分类方法使用轻量级DPI方法,通过缩小检测范围和特征长度进一步减少计算复杂度和存储消耗.我们使用Xilinx Virtex-5FPGA对上述设计进行实现与在线流量测试,结果表明RocketTC可以对92种网络协议进行识别,准确率达到97%,而且稳定提供20Gbps线速处理能力.; 付文亮嵩天周舟; 关键词：架构设计网络流量分类

基于依存适配度的知识自动获取词义消歧方法被引量：11: 2013年; 针对困扰词义消歧技术发展的知识匮乏问题,提出一种基于依存适配度的知识自动获取词义消歧方法.该方法充分利用依存句法分析技术的优势,首先对大规模语料进行依存句法分析,统计其中的依存元组信息构建依存知识库;然后对歧义词所在的句子进行依存句法分析,获得歧义词的依存约束集合;并根据WordNet获得歧义词各个词义的各类词义代表词;最后,根据依存知识库,综合考虑词义代表词在依存约束集合中的依存适配度,选择正确的词义.该方法在SemEval 2007的Task#7粗粒度词义消歧任务上取得了74.53%的消歧正确率;在不使用任何人工标注语料的无监督和基于知识库的同类方法中,取得了最佳的消歧效果.; 鹿文鹏黄河燕; 关键词：词义消歧依存句法分析

引入混合特征的最大名词短语双向标注融合算法被引量：4: 2015年; 最大名词短语的识别对机器翻译等诸多自然语言处理任务有着:惹要的意义.以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语H学特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适应性.实验证叨,釆用词和基本组块混合标注单元的标注方法对汉语最大名词短语的识别是有效的,并且其i E反向识别结果具有一定的互补性,在此基础上提出的基于"边界分歧"的双向序列标注融合算法恰能发掘双向识别的互补性,并达到较高的融合精度.; 李业刚黄河燕鉴萍

抑制维汉神经机器翻译代词性别偏见的方法: 2021年; 利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别标记和翻译、性别预测联合建模两种方法,将代词性别预测显式地融入神经机器翻译的训练过程.在多个维汉翻译测试集上进行实验验证,结果表明该方法相对于基线系统,在不影响翻译质量的情况下缓解了翻译输出结果的性别偏见问题,在代词性别预测的精度上也有显著提升.; 史学文黄河燕鉴萍唐翼琨; 关键词：性别偏见

基于训练集裁剪的加权K近邻文本分类算法被引量：7: 2016年; 文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(KNearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。; 孙新欧阳童严西敏尚煜茗郭文浩; 关键词：文本分类信息增益

多策略机器翻译研究综述被引量：20: 2015年; 该文全面综述和分析了多策略机器翻译的研究。根据所采用策略方式的差异,我们将多策略机器翻译分为系统级策略融合和模块级策略融合。在分别介绍了不同的翻译方法后,着重介绍了系统级策略融合和模块级策略融合各自具有代表性的研究工作。最后,对多策略机器翻译的研究进行了展望。; 李业刚黄河燕史树敏冯冲苏超; 关键词：机器翻译

基于注意力机制的概念化句嵌入研究被引量：7: 2020年; 大多数句嵌模型仅利用文本字面信息来完成句子向量化表示,导致这些模型对普遍存在的一词多义现象缺乏甄别能力.为了增强句子的语义表达能力,本文使用短文本概念化算法为语料库中的每个句子赋予相关概念,然后学习概念化句嵌入(Conceptual sentence embedding,CSE).因此,由于引入了概念信息,这种语义表示比目前广泛使用的句嵌入模型更具表达能力.此外,我们通过引入注意力机制进一步扩展概念化句嵌入模型,使模型能够有区别地选择上下文语境中的相关词语以实现更高效的预测.本文通过文本分类和信息检索等语言理解任务来验证所提出的概念化句嵌入模型的性能,实验结果证明本文所提出的模型性能优于其他句嵌入模型.; 王亚珅黄河燕冯冲周强; 关键词：语义表达

基于级联模型的中文情感要素抽取被引量：2: 2016年; 随着社交媒体的发展及成熟,每天在互联网环境中都会产生大量的用户评论信息.抽取评价短语、评价对象和观点持有者等情感要素,已经成为了中文观点挖掘和情感分析的重要先决任务.针对中文情感要素抽取任务,本文提出了一个统计和规则相结合的级联模型,主要贡献包括:(1)针对汽车领域评论信息,构建情感要素标注语料库和相关词典;(2)对于以往研究较少关注的中文评价短语,本文详细分析阐述其定义和分类;(3)结合统计和规则,分别针对评价短语和情感要素提出级联抽取策略.实验结果充分证明了该级联模型的有效性,相比较于其它基于规则的情感要素抽取算法有效提升了召回率,同时为后续社交媒体情感分析任务提供了有力的支持.; 王亚珅黄河燕冯冲刘全超; 关键词：信息抽取情感要素

北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心

合作机构

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心

合作机构

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈