李生 作品数:248 被引量:2,350 H指数:23 供职机构: 黑龙江工程学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 黑龙江省自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 电子电信 更多>>
CEMT—Ⅲ系统中汉语兼类问题的处理 被引量:3 1993年 汉语中词的兼类是一个普遍存在的现象。任何工程化的汉语句法分析系统都不能回避这个重要而难以解决的歧义问题。本文根据汉英机器翻译系统CEMT—Ⅲ的有2万词条的机器词典进行了统计,其中兼类词占7.7%,刪CEMT—Ⅲ系统采用多级渐进处理策略,将确定性推理和非确定性推理相结合,实现了汉语词的兼类自动消除机制。 赵铁军 毛成江 张民 李生关键词:机器翻译 汉语 英语 信息过滤中基于二元近似关系分布的噪声屏蔽算法 被引量:3 2008年 针对信息过滤反馈中充斥噪声的缺陷,提出一种基于二元近似关系分布(distribution of two-dimension similarity,简称DTS)的过滤策略.DTS根据噪声和用户模型的相悖关系,为信息流建立二元近似关系模型.同时,根据信息在二维近似关系空间中的分布,采用基于LMS(least mean square)分类器的AdaBoost算法建立噪声和相关信息的分类曲线,从而辅助信息过滤系统识别和屏蔽反馈中的噪声.通过实验验证,该算法显著提高了过滤系统屏蔽噪声的能力. 洪宇 张宇 郑伟 刘挺 李生关键词:信息过滤 噪声 用户模型 基于词典和统计的语料库词汇级对齐算法 被引量:13 1997年 语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。 刘小虎 吴葳 李生 赵铁军 蔡萌 鞠英杰关键词:语料库 信息处理 基于语料库的译文选择 被引量:7 1997年 源语言中单词的目标语译文选择问题,一直是人们广泛关注的难题,直接决定译文的质量。本文采用基于语料库的统计方法,利用单词与单词的共现概率来消除多义选择歧义,应用约束传播算法同时解决句子中所有的歧义词。考虑到语料库的大小限制,不可能覆盖所有的词词搭配,我们采用了较好的平滑技术,提高了语料库的覆盖率。另外,对于译文选择的统计显著性也作出了定量的分析。为解决汉译英中的英语译文选择的问题,我们利用该方法对汉语动词、名词、形容词的译文选择进行消歧实验,与基于规则的方法相比准确率增加了9% 刘小虎 李生关键词:机器翻译 语料库 全文增补中 一种改进的层次短语翻译模型 基于层次短语的统计翻译模型融合了短语和句法两方面的信息,已经成为当前统计机器翻译的主流模型之一。由于传统的层次短语模型没有考虑词汇的内在联系,导致待翻译句子中常用短语(如搭配词组)的译文可能由多个译文片段组合得到,从而造... 刘占一 刘挺 李生关键词:统计机器翻译 搭配 文献传递 基于双语语料库的短语复述实例获取研究 被引量:5 2007年 本文提出一种基于双语语料库的短语复述实例获取方法,尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义,利用词对齐的双语语料库,构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比较每一个候选复述短语和输入短语之间的语义一致性,来确定每个候选是否成为最终的复述实例。实验结果表明,本文短语复述实例获取方法的综合准确率达到了60%,获取了较好的性能。 李维刚 刘挺 李生关键词:计算机应用 中文信息处理 双语语料库 基于上下文多元信息的文档相似度计算研究 被引量:2 2006年 提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%-18.49%和11.96%~15.35%;在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上. 于凤 郑德权 赵铁军 李生关键词:相似度计算 上下文 多元信息 相似函数 知识获取 个性化信息检索中的用户历史分析 2014年 个性化信息检索通过挖掘用户兴趣来准确理解用户信息需求,提供高质量的检索结果。然而,用户历史是否与用户信息需求有关系这一问题缺少明确回答。本文基于真实搜索日志对用户历史与用户信息需求的关系进行了分析。当前点击代表了用户信息需求。分析结果显示,用户历史中存在与用户信息需求有关的内容,证明挖掘用户历史可以提高个性化检索性能。 王晓春 杨沐昀 李生关键词:个性化信息检索 信息需求 树-串句法统计翻译模型的正向解码算法 2008年 针对树-串句法统计翻译模型提出了基于对数线性模型的正向解码算法.该解码算法直接对句法树进行操作,能够简单有效地利用句法信息.在对数线性模型中定义了翻译模型概率、语言模型概率和空译文罚分3个特征函数.采用集束搜索算法搜索假设空间,采用多栈存储假设,依据启发式策略进行假设打分.研究了假设的扩展方法,特别是树节点上不同操作对位置有效性的影响.在IWSLT2004数据集上进行了对比实验.实验结果表明正向解码算法译文的BLEU评分高于传统解码算法,说明正向解码算法能够克服传统解码算法的不足,有效利用句法结构信息,比传统解码算法更适合于树-串统计翻译模型. 薛永增 李生 赵铁军 杨沐昀关键词:自然语言处理 统计机器翻译 句法 启发式算法 论微博社区社会多主体治理平台之构建 2014年 近年来,微博媒体迅速发展,使其在社会治理领域的积极作用愈发突出。微博社区网络平台所具有的覆盖广、传播快、互动好等诸多特点,契合了社会治理多元共治的思想,适合作为实现这一模式的平台。通过对微博社区网络特征的分析和微博社区多元共治的案例分析可以发现,明确治理平台的参与主体和结构关系,可以使微博社区初步形成多元主体协商合作的互动机制,使之成为社会治理的有效工具,从而加快提高社会治理水平。推进微博社区中政府、社会组织和公众的两两协同和三方共治则可以加速推进社会治理微博平台的建设,有效解决运行中存在的问题,推进社会治理现代化。 王博 梁媛 李生关键词:社会治理 多元共治