曲卫民
- 作品数:5 被引量:35H指数:4
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划北京市科技新星计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于主题的汉语语言模型的研究被引量:4
- 2003年
- 基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题 ,针对其面临的两个主要问题———语料的分类和各语言模型的融合 ,采用了一种新的语料分类算法 ,突破了原有分类方法的一些局限性 ,并提出了一种改进的融合各语言模型的方法 :概率 +线性插值法 ,该方法既改善了语言模型的性能 。
- 曲卫民张俊林孙乐
- 关键词:语言模型自适应主题
- 半结构化中文信息检索中查询结果相关度算法的研究被引量:8
- 2004年
- 本文研究了对富含文本信息的XML数据进行基于关键字的查询时 ,查询结果与查询条件之间相关度的计算问题 ,分析了利用传统信息检索技术解决该问题时存在的一些不足 ,提出了一种基于节点的动态的关键字权重计算法 ,以及综合考虑关键字在查询结果中的频率分布特征和结构分布特征的查询结果相关度计算法 ,有效解决了XML数据中的结构信息对相关度计算的影响 。
- 曲卫民孙乐孙玉芳
- 关键词:计算机应用中文信息处理XML
- XML数据查询中值匹配查询代价估计算法被引量:8
- 2005年
- XML数据查询中值匹配查询条件的查询代价估计问题是一种典型的多元素查询条件代价估计问题.它与传统关系型数据库中的多元素查询条件不同,因为XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,可能会形成高维元素相关.针对以上问题,提出了一种面向XML数据的基于小波的多维直方图查询代价估计算法,并提出了确定XML数据中以某值元素为主键的相互依赖元组的方法,将值匹配条件改写为多元素查询条件的方法以及结构信息的值化方法.实验结果证明,提出的方法取得了较准确的查询代价估计结果.
- 曲卫民孙乐孙玉芳
- 关键词:XML
- 中文XML信息检索系统的研究
- XML信息检索系统与传统的信息检索系统不同,主要体现在:建立索引时不仅需要建立倒排文本索引,还需要建立结构信息索引;查询处理时不仅需要处理关键字查询条件,还需要处理结构化查询条件.为满足结构复杂、大规模的XML数据管理需...
- 曲卫民
- 文献传递
- 基于记忆的自适应汉语语言模型的研究被引量:3
- 2003年
- 基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现,它没有考虑到常用词的影响,以及不同单词间的相互影响。本文针对这一问题从两个方面对原有模型进行了改进,一是采用TFIDF公式代替了原有的简单频率统计法;二是建立了一种基于记忆的扩展二元模型,并采用权重过滤法以节省模型计算量。实验表明这两种改进在很大程度上提高了原有模型的性能,增强了模型的自适应性。
- 曲卫民张俊林孙乐孙玉芳
- 关键词:计算机应用中文信息处理语言模型自适应