傅间莲
- 作品数:5 被引量:62H指数:4
- 供职机构:清华大学更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于连续段落相似度的主题划分算法被引量:12
- 2005年
- 主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.4%,对单主题文章的主题划分准确率为99.1%。
- 傅间莲陈群秀
- 关键词:自动文摘向量空间模型主题划分
- 基于规则和统计的中文自动文摘系统被引量:26
- 2006年
- 自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-m easure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。
- 傅间莲陈群秀
- 关键词:中文信息处理自动文摘向量空间模型主题划分可读性
- 自动文摘系统中的主题划分问题研究被引量:17
- 2005年
- 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。
- 傅间莲陈群秀
- 关键词:计算机应用中文信息处理自动文摘向量空间模型主题划分
- 一种新的自动文摘系统评价方法被引量:16
- 2006年
- 系统评价是自然语言处理系统中一个非常重要的环节。论文提出了一种新的评价方法(F-new-measure),并应用于文本自动摘要中。其创新之处在于评价中不仅考虑了文摘的精确率、召回率,还考虑了文摘压缩率。实验表明常用的评价方法在不同压缩率情况下,评价值是不稳定的,而论文提出的评价方法的评价值则相对稳定。
- 傅间莲陈群秀
- 关键词:自动文摘召回率压缩率
- 一种基于遗传算法的主题划分方法被引量:1
- 2006年
- 提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的主题划分准确率为94.6%。
- 傅间莲陈群秀
- 关键词:自动文摘向量空间模型遗传算法主题划分