公共文化服务平台

2024年8月25日星期日

|

欢迎来到青海省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

教育部人文社会科学研究基金(10YJA740120): 作品数：5 被引量：13H指数：3; 相关作者：刘芹余一骄陈宁尹燕飞更多>>; 相关机构：华中师范大学武汉大学更多>>; 发文基金：教育部人文社会科学研究基金湖北省教育厅人文社会科学研究项目国家教育部“211”工程更多>>; 相关领域：自动化与计算机技术语言文字更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

5篇中文期刊文章

领域

4篇自动化与计算...
1篇语言文字

主题

3篇语料
3篇语料库
2篇中文
2篇汉字
2篇N-GRAM
1篇短语
1篇信息抽取
1篇语义检索
1篇韵书
1篇体例
1篇排序
1篇中文网页
1篇中文文本
1篇字串
1篇网页
1篇网页检索
1篇互信息
1篇基于语义
1篇汉字串
1篇发微

机构

5篇华中师范大学
4篇武汉大学

作者

4篇余一骄
4篇刘芹
1篇陈宁
1篇尹燕飞

传媒

4篇计算机科学
1篇辞书研究

年份

1篇2015
2篇2014
1篇2012
1篇2011

共 5 条记录，以下是 1-5

全选清除导出

排序方式：

大规模中文语料库检索技术研究被引量：4: 2015年; 大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术。Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字串检索、汉字串频次检索。实现以上检索功能的关键是:先统计语料库的N-gram汉字串频次,并将统计结果分别按频次大小及汉字串Unicode编码进行倒排序索引。对用户输入的检索请求,先检索汉字串频次统计结果,向用户反馈一个备选汉字串集合;然后让用户参与检索优化过程,选择正确性较高的汉字串;最后在语料库中检索用户选定的检索词。; 余一骄刘芹; 关键词：汉字语料库词性 N-GRAM

基于语义的中文网页检索被引量：4: 2012年; 用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。; 余一骄刘芹; 关键词：语义检索中文网页信息抽取

面向超大规模的中文文本N-gram串统计被引量：3: 2014年; 中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。; 余一骄刘芹; 关键词：汉字 N-GRAM 语料库排序

《曲韵骊珠》编例发微被引量：2: 2011年; 《曲韵骊珠》在总体规制上,继承了元代《中原音韵》、明代《中州全韵》等曲韵书的结构。在小韵的编排上,一反旧曲韵的没有章法,独创了"音阶排序法"和"韵目定序法"。它既继承了以往曲韵书的优点,又针对度曲歌唱的目的做了改革创新,编排巧妙而周密。; 陈宁; 关键词：韵书编纂体例

基于大规模语料库的高频汉字串互信息分布规律分析: 2014年; 基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串。以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战。; 余一骄尹燕飞刘芹; 关键词：短语语料库互信息

全选清除导出

共1页<1>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张