刘秉伟
- 作品数:5 被引量:100H指数:3
- 供职机构:复旦大学更多>>
- 发文基金:上海市教育委员会重点学科基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- Internet网上文本信息的分类、检索和摘要系统
- 吴立德黄萱菁郭以昆刘秉伟韦雄观叶丹瑾王文欣季祥周雅倩罗翀牛军钰张玥杰陈凯江
- 本项成果在大规模语料库统计分析的集础上,解决了大规模文本处理的许多技术难点,实现了网络中文信息的分类、检索、文本摘要和信息提取系统的原型。所达到的技术指标和国际上著名的权威评测会议(如文本检索会议、消息理解会议和文本摘要...
- 关键词:
- 关键词:INTERNET
- 基于隐马尔可夫模型的实体名识别
- 本文针对自然语言处理的特点,使用基于隐马尔可夫模型(HMM)的自学习算法进行实体名识别,并对模型和传统的Viterbi算法作了几项改进,使其整体性能显著提高.本方法显著特点是不受限于具体语种,系统构造代价较小.试验表明,...
- 陈凯江刘秉伟黄萱菁吴立德
- 关键词:实体名识别隐马尔可夫模型VITERBI算法文本处理
- 文献传递
- 现代汉语熵的计算及语言模型中稀疏事件的概率估计被引量:10
- 2000年
- 文本文在大规模语料的基础上 ,利用语言模型中稀疏事件的概率估计方法对汉语的熵进行计算 ,并讨论了语料规模等因素对熵的影响 .在 4年的人民日报的语料规模下 ,所求得的零阶熵、一阶熵、二阶熵分别为 9 6 2 ,6 18和 4 89比特 .
- 黄萱菁吴立德郭以昆刘秉伟
- 关键词:现代汉语语言模型
- 基于统计方法的中文姓名识别被引量:87
- 2000年
- 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。
- 刘秉伟黄萱菁郭以昆吴立德
- 关键词:自动分词未登录词中文姓名识别
- 汉语自动分词中若干关键技术的研究
- 该文设计并实现了一个汉语自动分词系统,对系统中采用的关键技术进行具体介绍.词典查找是影响系统切分速度的重要因素.该文提出一种基于Trie索引的词典组织机制,对分词过程中几种常用的词典查找尤其是最大匹配查找的速度有很大提高...
- 刘秉伟
- 关键词:中文信息处理汉语自动分词未登录词识别信息集成
- 文献传递