您的位置: 专家智库 > >

教育部人文社会科学研究基金(10YJA740120)

作品数:5 被引量:13H指数:3
相关作者:刘芹余一骄陈宁尹燕飞更多>>
相关机构:华中师范大学武汉大学更多>>
发文基金:教育部人文社会科学研究基金湖北省教育厅人文社会科学研究项目国家教育部“211”工程更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 4篇自动化与计算...
  • 1篇语言文字

主题

  • 3篇语料
  • 3篇语料库
  • 2篇中文
  • 2篇汉字
  • 2篇N-GRAM
  • 1篇短语
  • 1篇信息抽取
  • 1篇语义检索
  • 1篇韵书
  • 1篇体例
  • 1篇排序
  • 1篇中文网页
  • 1篇中文文本
  • 1篇字串
  • 1篇网页
  • 1篇网页检索
  • 1篇互信息
  • 1篇基于语义
  • 1篇汉字串
  • 1篇发微

机构

  • 5篇华中师范大学
  • 4篇武汉大学

作者

  • 4篇余一骄
  • 4篇刘芹
  • 1篇陈宁
  • 1篇尹燕飞

传媒

  • 4篇计算机科学
  • 1篇辞书研究

年份

  • 1篇2015
  • 2篇2014
  • 1篇2012
  • 1篇2011
5 条 记 录,以下是 1-5
排序方式:
大规模中文语料库检索技术研究被引量:4
2015年
大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术。Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字串检索、汉字串频次检索。实现以上检索功能的关键是:先统计语料库的N-gram汉字串频次,并将统计结果分别按频次大小及汉字串Unicode编码进行倒排序索引。对用户输入的检索请求,先检索汉字串频次统计结果,向用户反馈一个备选汉字串集合;然后让用户参与检索优化过程,选择正确性较高的汉字串;最后在语料库中检索用户选定的检索词。
余一骄刘芹
关键词:汉字语料库词性N-GRAM
基于语义的中文网页检索被引量:4
2012年
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。
余一骄刘芹
关键词:语义检索中文网页信息抽取
面向超大规模的中文文本N-gram串统计被引量:3
2014年
中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。
余一骄刘芹
关键词:汉字N-GRAM语料库排序
《曲韵骊珠》编例发微被引量:2
2011年
《曲韵骊珠》在总体规制上,继承了元代《中原音韵》、明代《中州全韵》等曲韵书的结构。在小韵的编排上,一反旧曲韵的没有章法,独创了"音阶排序法"和"韵目定序法"。它既继承了以往曲韵书的优点,又针对度曲歌唱的目的做了改革创新,编排巧妙而周密。
陈宁
关键词:韵书编纂体例
基于大规模语料库的高频汉字串互信息分布规律分析
2014年
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串。以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战。
余一骄尹燕飞刘芹
关键词:短语语料库互信息
共1页<1>
聚类工具0