夏青松
- 作品数:2 被引量:27H指数:2
- 供职机构:教育部更多>>
- 发文基金:安徽省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于成分的句子相似度计算被引量:4
- 2012年
- 当前信息数据量庞大、冗余度高,如何在自动问答系统中快速查询所需要的信息成为一个关键课题。句子相似度计算作为该领域的一个基础并且是核心的部分,一直受到人们的关注。当前的方法各有其不足之处,文中提出了一种基于成分的句子相似度计算方法。通过将句子划分为主语、谓语、宾语、定语等成分,根据知网计算各个成分间的相似度,最后将所有成分的相似度加权求和得到句子相似度。这种方法不仅能够明显提高句子相似度计算的准确率,同时也极大地降低了计算时的时空消耗,可以有效地提高自动问答系统的准确性。
- 郑诚夏青松孙昌年
- 关键词:句子相似度句子成分自然语言处理
- 基于LDA的中文文本相似度计算被引量:23
- 2013年
- 传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的文本相似度计算方法,LDA模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用JS(Jensen-Shannon)距离来计算文本相似度。通过聚类实验表明该方法取得了较高的F值。
- 孙昌年郑诚夏青松
- 关键词:向量空间模型文本相似度主题模型