国家自然科学基金(60572159) 作品数:9 被引量:146 H指数:5 相关作者: 葛诗利 宋柔 陈潇潇 林民 王修力 更多>> 相关机构: 北京语言大学 广东金融学院 华南理工大学 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
基于结构描述的汉字字形相似度计算 汉语是一种大字符集语言,汉字数量繁多、结构复杂。汉字字形的相似度计算是汉语信息处理的一项基础研究,对于计算机辅助的汉语文章校对和汉字教学有重要作用。本文从图形相似角度改进了汉字结构的描述方法,给出了一种基于结构描述的汉字... 林民 宋柔关键词:汉字字形 相似度 文献传递 跨标点句的否定辖域 现代汉语中基本否定词“不”以及扩充否定词“从不”、“很不”、“不能”、“不会”等的否定辖域受到学术界重视,但前人研究一般都局限于句内,其实否定辖域也涉及多个标点句。跨标点句的否定辖域和否定词共享问题是整个跨标点句句法共享... 张瑞朋 宋柔关键词:否定词 辖域 共享 文献传递 标点句标注研究 本文在提出标点句的基础之上,讨论了标点句的研究内容及意义,重点论述了标点句的标注问题。基于易视性、自动形成树形结构、便于扩充三原则,我们提出一种用于标点句研究的不同于现有句法标注的新方法, 并实际标注了1294个标点句,... 黄建传 宋柔关键词:句法关系 标点 文献传递 面向英汉机器翻译的树库建设 机器翻译的源语分析难度和目标语的生成质量与语言知识库的建设息息相关。本文简要介绍北京语言大学开发的面向英汉机器翻译的树库。该树库在英语句子的基础上进行翻译,同时生成英语的句法树和汉语的句法树:在生成句法树的过程中,以英语... 牟小峰关键词:机器翻译 双语对齐 树库 文献传递 大学英语作文自动评分中分级词表的效度研究 被引量:9 2008年 自动作文评分中的核心问题是对高信度的、机器可用的评分特征的选取。大学英语作文自动评分中的一个基本特征是词汇分布,而词汇分布的衡量需要一个描述清晰、刻画准确的大学英语作文分级词表,也就是一个效度较高的词表。实验证明目前已有的词表难以达到这个要求,但通过改进或者调整,可以取得对不同作文质量效度较高的词表。 李艳 葛诗利关键词:自动作文评分 大学英语写作 文本信息检索的代数模型综述 被引量:5 2007年 为了比较各模型的性能,研究进一步改进文本信息检索各类模型的可能方法,综合已有的试验及发表的研究报告,概述文本信息检索模型中一类模型——代数模型概念和研究现状,并分析了目前文本信息检索的相关性、相似度、召回率、准确率等概念。结果表明,这几个模型尽管来源于神经网络、向量空间等不同的思想,广义向量空间模型、潜在语义标引模型的计算复杂度比向量空间模型高,但此类模型依据评测在准确率和召回率上相近,经典向量空间模型相对而言,有简单、复杂度低和可作为检索框架,而不仅仅是检索模型的特点。为便于研究者研究、改进、评测信息检索的代数模型,介绍并评价了权威的TREC(The Text Retrieval Conference)和两个代表性的研究系统smart和lemur。 王修力 马利平关键词:文本信息检索 相似度 代数模型 召回率 准确率 现代汉语跨标点句句法关系的性质研究 被引量:27 2008年 汉语小句句首成分缺失的现象十分常见,一般作为篇章分析中的零形回指问题去研究,本文则更换角度,看作跨越标点的句法关系问题。本文的工作包括:提出现代汉语中标点句和跨标点句的句法关系的概念,设计了表示跨标点句句法关系的换行缩进的直观表示方法,揭示了跨标点句句法关系的性质,包括句法关系类型的搭配条件、栈式结构规律以及栈式结构进退的限度。 宋柔关键词:句法关系 否定词跨标点句管辖的判断 被引量:5 2007年 现代汉语中基本否定词"不"以及扩充词"从不"、"很不"、"不能"、"不会"等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句,否定词的管辖判断也涉及到扩充的否定词。跨标否定词跨标点句管辖的判断和否定词共享问题是整个跨标点句句法共享问题的一个重要组成部分。本文从形式上找到了一些否定词跨标点句的共享规律,即着重从形式角度讨论了否定词跨标点句的辖域问题,对现代汉语长句句法分析有重要作用,并对汉外机器翻译有实用价值。 张瑞朋 宋柔关键词:计算机应用 中文信息处理 否定词 管辖 共享 汉字字形计算及其在校对系统中的应用 被引量:5 2008年 汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的字形相似度计算算法,该方法计算相似度无需字形样本实例的学习训练,对于常用字和难于获取书写样本的生僻字的相似度计算,都具有很好的适应性,可满足不断扩大的汉字集合计算相似度的需要.实验表明,采用此法计算得到的GB2312中6763个汉字的相似字表,与人的认知结果吻合度很好,并应用于计算机辅助校对系统中的别字修改提示,显示出较好效果. 宋柔 林民 葛诗利关键词:汉字字形 相似度 SSD模型及其在词性标注中的应用 本文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.... 邢富坤 宋柔 罗智勇关键词:HMM 词性标注 文献传递