您的位置: 专家智库 > >

廖敏

作品数:3 被引量:20H指数:2
供职机构:北京师范大学信息科学与技术学院更多>>
发文基金:国家社会科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...

主题

  • 2篇数组
  • 2篇索引
  • 2篇TRIE树
  • 1篇对齐
  • 1篇信息处理
  • 1篇信息检索
  • 1篇切分
  • 1篇全切分
  • 1篇中文
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇句子对齐
  • 1篇计算机
  • 1篇计算机应用
  • 1篇古文

机构

  • 3篇北京师范大学

作者

  • 3篇宋继华
  • 3篇廖敏
  • 2篇褚颖娜
  • 1篇郭锐

传媒

  • 2篇计算机系统应...
  • 1篇中文信息学报

年份

  • 2篇2009
  • 1篇2008
3 条 记 录,以下是 1-3
排序方式:
一种基于统计的分词标注一体化方法被引量:3
2009年
分词标注是中文信息处理的基础。传统方法的处理步骤大都是首先对文本进行预处理,得到文本的粗分模型,在此基础上对词语进行词性标注。粗分模型集合的大小取决于采用的分词方法,粗分模型的准确性直接影响着后续处理结果的准确性。提出一种基于统计的分词标注一体化方法即概率全切分标注模型,该方法的特点是将分词、标注两部分工作融为一体同时进行,在利用全切分获得所有可能分词结果的过程中,计算出每种词串的联合概率,同时利用马尔可夫模型计算出每种词串所有可能标记序列的概率,由此得到最可能的处理结果。该方法提高了结果的召回率和准确率,由于在查询词典时采用的是单次查询双数组Trie树索引,因此效率也很高。
褚颖娜廖敏宋继华
关键词:全切分
双数组Trie树索引的可操作性研究被引量:2
2009年
双数组是组织和实现Trie树的一种数据结构。双数组Trie树索引实现的是一种线性时间复杂度的搜索机制,因此被广泛的应用于信息检索和中文分词等领域。然而双数组Trie树索引建立后不易于更新,限制了这种索引的现实应用。在前人的双数组Trie树优化索引构造的基础上,分析了插入和删除操作的所有可能情况,提出了对双数组Trie树索引进行相关操作的算法。最后分析了其时间和空间开支,并用实验结果证明了其可行性。
廖敏褚颖娜宋继华
关键词:信息检索TRIE树
基于自动句对齐的相似古文句子检索被引量:15
2008年
随着语料库语言学的兴起,基于实例的机器翻译(EBMT)得到越来越多的研究。如何快速准确地构建大规模古今汉语平行语料库,以及从大量的对齐实例(句子级)中检索和输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的问题。本文综合考虑句子长度、汉字字形、标点符号三个因素提出了古今汉语句子互译模型,基于遗传算法、动态规划算法实现了古今汉语的自动句对齐。接着为古文句子建立全文索引,基于汉字的信息熵,本文设计与实现一种高效的最相似古文句子检索算法。最后给出了自动句对齐和最相似古文句子检索的实验结果。
郭锐宋继华廖敏
关键词:计算机应用中文信息处理句子对齐
共1页<1>
聚类工具0