公共文化服务平台

国家自然科学基金(60763001): 作品数：9 被引量：47H指数：4; 相关作者：袁里驰万常选余宏王芳王芳更多>>; 相关机构：江西财经大学中南大学南昌师范高等专科学校更多>>; 发文基金：国家自然科学基金江西省自然科学基金江西省教育厅科学技术研究项目更多>>; 相关领域：自动化与计算机技术电子电信更多>>

不确定数据库中基于x-tuple的高效Top-k查询处理算法: Top-k查询由于其广泛的应用而倍受欢迎。不确定数据库中通常考虑的两条生成规则是:独立和互斥,一个x-tuple是由一些互斥的元组组成的,构成一个x-tuple的各个元组称为该x-tuple的可选元组。U-kRanks查...; 刘德喜万常选刘喜平; 关键词：TOP-K 不确定数据库动态规划算法; 文献传递

融合语言知识的统计句法分析被引量：5: 2012年; 利用语义、语法等语言知识,建立一种分层句法分析统计模型,并进行句法分析实验。研究结果表明:该模型具有规则和统计相结合的特点,且在层次分析的不同阶段,根据不同的语法、语义、语用特性采用不同的方法和不同的统计模型;该模型结合分词、词性标注进行句法分析,是一个词汇化的句法分析模型,可同时考虑多个语义依存关系;采用该模型,精确率和召回率分别为87.23%和86.15%,其综合指标F与头驱动句法分析模型的相比提高了5.25%。; 袁里驰; 关键词：自然语言处理词聚类

基于用户反馈的Web多媒体数据源的选取: 在网络上,某个特定主题往往拥有成百上千个相关数据源,这使得如何从众多的数据源中快速的找到合适的结果进行数据集成变得越来越重要。传统的基于数据质量的数据源选择方法不考虑不同类型数据源的质量维度特性,而是根据研究者的经验统一...; 邓松万常选; 关键词：数据源多媒体用户反馈; 文献传递

基于语义返回XML关键词检索结果: 在处理XML关键词查询时,首先要确定答案结点的语义,即什么样的结点是答案结点.通过两步分析答案结点的语义:首先推导候选答案结点的类型,然后根据答案结点与查询的关系来精选答案结点.在第1步中,将XML结点映射到ER模型中的...; 刘喜平万常选刘德喜; 关键词：XML 关键词检索语义; 文献传递

Vari-gram language model based on word clustering: 2012年; Category-based statistic language model is an important method to solve the problem of sparse data.But there are two bottlenecks:1) The problem of word clustering.It is hard to find a suitable clustering method with good performance and less computation.2) Class-based method always loses the prediction ability to adapt the text in different domains.In order to solve above problems,a definition of word similarity by utilizing mutual information was presented.Based on word similarity,the definition of word set similarity was given.Experiments show that word clustering algorithm based on similarity is better than conventional greedy clustering method in speed and performance,and the perplexity is reduced from 283 to 218.At the same time,an absolute weighted difference method was presented and was used to construct vari-gram language model which has good prediction ability.The perplexity of vari-gram model is reduced from 234.65 to 219.14 on Chinese corpora,and is reduced from 195.56 to 184.25 on English corpora compared with category-based model.; 袁里驰; 关键词：统计语言模型词聚类词语相似度

一种二维的树型文档结构相似性度量: 研究了树型文档的结构相似性度量,提出了一种二维的树型文档结构相似性度量方法.该方法首先计算文档树的结构摘要以对树型文档进行约简.然后,提出了两个特征集,它们分别从不同的角度反映了摘要树中的结构特征,而且相互补充.与这两个...; 刘喜平万常选; 文献传递

基于XML的检索结果聚类方法被引量：6: 2010年; 针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。; 余宏万常选; 关键词：内容相似度聚类算法

基于可信度的中文完整词自动识别被引量：4: 2009年; 中文自动分词是中文信息检索中预处理工作的一部分,也是中文信息检索技术中的重要问题之一。针对在信息检索中完整词整体表达更有意义、更能体现用户查询目的的问题,结合完整词的成词特点,将互信息和完整词前后缀的计算,与组成完整词的可信度相关联,提出基于可信度的三种中文完整词自动识别方法,分别构成基于全信度、偏信度,以及前两者加权平均的混信度的完整词识别方法,设计及实现了基于可信度的三种完整词自动识别中文分词原型系统。最后给出了对第二届SIGHAN(2005)北京大学测试集语料的各项实验测试结果和分析,结果表明该原型系统的识别性能良好,且能同时满足多种性能的需求。; 王芳王芳; 关键词：计算机应用中文信息处理中文分词互信息自动识别

有效的XML模糊内容与结构检索和计分: XML文档包含有内容和结构,除了可以进行纯内容(CO)检索外,还可以进行内容和结构(CAS)检索。提出了一种新的CAS检索方法,这种方法以内容检索为主,结构匹配为辅,结构约束主要影响结点的计分,而不是答案结点的选择。这种...; 刘喜平万常选刘德喜; 关键词：XML 信息检索; 文献传递

基于改进的隐马尔科夫模型的词性标注方法被引量：15: 2012年; 针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。,该模型用条件独立性假设取代HMM模型的独立性假设。将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验。实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程;在相同的测试条件下,马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。; 袁里驰; 关键词：隐马尔可夫模型词性标注 VITERBI算法

国家自然科学基金(60763001)