您的位置: 专家智库 > >

余一骄

作品数:10 被引量:21H指数:3
供职机构:华中师范大学文学院语言学系更多>>
发文基金:教育部人文社会科学研究基金湖北省教育厅人文社会科学研究项目湖北省高等学校省级教学研究项目更多>>
相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>

文献类型

  • 9篇期刊文章
  • 1篇科技成果

领域

  • 4篇自动化与计算...
  • 3篇文化科学
  • 2篇语言文字
  • 1篇电子电信

主题

  • 4篇汉字
  • 3篇语料
  • 3篇语料库
  • 2篇短语
  • 2篇频次
  • 2篇中文
  • 2篇课程
  • 2篇互信息
  • 2篇本科
  • 2篇本科生
  • 2篇N-GRAM
  • 1篇信息抽取
  • 1篇语词
  • 1篇语码
  • 1篇语码选择
  • 1篇语言
  • 1篇语言风格
  • 1篇语义检索
  • 1篇实证
  • 1篇实证研究

机构

  • 10篇华中师范大学
  • 4篇武汉大学

作者

  • 10篇余一骄
  • 4篇刘芹
  • 1篇肖德宝
  • 1篇刘玉华
  • 1篇尹燕飞
  • 1篇马长林
  • 1篇崔建群

传媒

  • 4篇计算机科学
  • 3篇华中学术
  • 2篇教学研究

年份

  • 1篇2020
  • 1篇2017
  • 2篇2015
  • 2篇2014
  • 3篇2012
  • 1篇2011
10 条 记 录,以下是 1-10
排序方式:
基于语义的中文网页检索被引量:4
2012年
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。
余一骄刘芹
关键词:语义检索中文网页信息抽取
网络管理理论与方法的研究
肖德宝刘玉华崔建群余一骄马长林
该项目属于信息科学领域。随着信息技术的高速发展,计算机网络应用日益广泛、规模日益扩展、结构日益复杂,如果没有有效的网络管理理论、方法、体制和系统的支撑和配合,很难使复杂的计算机网络维持正常的运行。网络管理是对网络的性能、...
关键词:
关键词:计算机网络系统
对频率与互信息在汉语词典编撰中的作用的实例考察
2015年
频率与互信息是近年来汉语新词自动发现中最重要的特征,它们还被列入现代汉语词典编撰选词原则中。本文以《现代汉语词典》(第6版)中全体包含'蛋'字的二字词、三字词为考察对象,分别在北京大学CCL语料库、华中师范大学Cici语料库中统计其频次,计算互信息。对比被收录词和部分未被收录词的频次和互信息却发现:部分被收录词的频次、互信息都比一些未被收录的词低。分析多组频次和互信息数值,可推测在《现代汉语词典》编撰中,词的频次与互信息其实不如词典编撰者的语感关键。
余一骄贾凌
关键词:频次互信息现代汉语词典短语
微信文本会话的语言风格统计与分析被引量:1
2017年
对大规模微信文本会话语料进行计算风格学分析,有利于揭示微信语言的特征。本文采集了252万余字的微信文本会话语料,从会话方式、会话长度、高频字、高频词、网络词语等角度进行了统计。统计数据表明:第一,文本会话方式比例逐渐降低,且有70.83%的文本会话不超过7个汉字;第二,汉字频次分布极不均衡,少量高频汉字的覆盖率极高;第三,微信高频词与书面语高频词差异大,且不少高频词过于粗俗;第四,微信会话中较多地使用了已有的网络新词新语,但很少产生有影响的新词新语。
余一骄
关键词:语言风格频次汉字
大规模中文语料库检索技术研究被引量:4
2015年
大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术。Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字串检索、汉字串频次检索。实现以上检索功能的关键是:先统计语料库的N-gram汉字串频次,并将统计结果分别按频次大小及汉字串Unicode编码进行倒排序索引。对用户输入的检索请求,先检索汉字串频次统计结果,向用户反馈一个备选汉字串集合;然后让用户参与检索优化过程,选择正确性较高的汉字串;最后在语料库中检索用户选定的检索词。
余一骄刘芹
关键词:汉字语料库词性N-GRAM
面向超大规模的中文文本N-gram串统计被引量:3
2014年
中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。
余一骄刘芹
关键词:汉字N-GRAM语料库排序
基于素质课程的本科生科研方法训练实证研究被引量:3
2012年
以在华中师范大学10次讲授公共素质课"本科生科研方法训练"的教学实践为例,讨论如何向本科生提供必要的科研方法训练。该课程的教学内容分为学术资源获取、学术论文写作方法、学术道德与规范、本科生在校科研活动、个人学术生涯规划五个模块。实践表明该课程的教学内容合理,教学方式可行,它能对学生未来的学习、科研、工作产生长期正面影响。文中还就广泛开展本科生科研方法训练的教学对象、教学定位、师资来源提出了建议。
余一骄
关键词:本科生实证
关于长期来华留学生微信群会话语码选择的统计分析
2020年
本文针对30名来华留学生一年半内的微信群聊天语料,从文本方式与非文本方式的发言次数、汉语与学生母语的使用次数、汉字表述与拼音表述的频次等角度进行统计。统计结果表明:微信群交际中,多模态发言特征明显,留学生主动顺应了汉语环境中的网络交际模式;汉语是微信群交际的首选语言,但在涉及关键性事件处理或隐私保护时,可能会使用留学生的母语;绝大多数留学生坚持使用汉字表述,个别学生会少量使用拼音。
余一骄
关键词:语码来华留学生汉字
基于大规模语料库的高频汉字串互信息分布规律分析
2014年
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串。以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战。
余一骄尹燕飞刘芹
关键词:短语语料库互信息
指导本科生课程论文选题的几点建议被引量:6
2011年
根据长期指导本科生撰写课程论文的教学经历,本文讨论大学教师如何易行、高效地指导本科生改进论文选题。不合适的论文选题大多具有论述范围过大、立意陈旧、非学术性等特点。教师可以通过课堂点评的方式,帮助学生及时改进选题。另外,引导本科生多阅读学术文献,提高学术批评素养,是增强学生课程论文选题能力的有效途径。
余一骄
关键词:课程论文论文提纲
共1页<1>
聚类工具0