山西省自然科学基金(2012011011-4)
- 作品数:4 被引量:6H指数:2
- 相关作者:赵旭俊蔡江辉杨海峰庞宁张继福更多>>
- 相关机构:太原科技大学北京语言大学更多>>
- 发文基金:山西省自然科学基金国家自然科学基金山西省青年科技研究基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 多种语义特征在突发事件新闻中的共指消解研究被引量:3
- 2014年
- 提高突发事件应对的关键在于快速地收集和提取相关新闻报道中的有用信息,共指消解是信息提取研究的重要子任务。该文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,综合对比了语义类特征、语义角色特征,以及基于维基百科的语义相关特征,重定向特征及上下文特征在测试集上的效果。实验结果表明,除单纯使用语义角色特征会使系统F值下降1.31%以外,其余各种语义知识对共指消解模型的结果均有所提高。
- 庞宁杨尔弘
- 关键词:中文信息处理突发事件共指消解语义特征最大熵模型
- 一种晚型天体光谱离群数据挖掘系统被引量:1
- 2014年
- 探索海量的M型恒星中具有磁活动、巨星等较特殊、稀有的天体,对于后续观测、银河系结构、演化等科学研究具有重要的意义,针对M型恒星光谱特征线出现在子空间中的局部偏离,设计并实现了晚型恒星离群数据挖掘系统。首先采用稀疏因子和稀疏度系数度量样本在属性空间上的分布特征,并在此基础上对M型恒星光谱特征线进行离散化、降维等预处理,获得光谱子空间;然后采用微粒群算法搜索离群子空间,并证认子空间内光谱是否离群;此外,选择SDSS M型光谱特征线指数集为样本,实验分析了稀疏因子和稀疏度系数的设置对离群结果的影响,并将离群挖掘结果与SDSS提供光谱型等参数对照,表明利用该系统实现晚型恒星光谱特征线局部离群数据挖掘是可行并有价值的。
- 蔡江辉杨海峰赵旭俊张继福
- 关键词:子空间
- 基于网页特征的特征词提取技术
- 2014年
- 特征词提取是一项提炼整个web页面内容的实用技术,同时也为文本分类,信息抽取应用提供了技术支持.在web页面内容上,利用段落间语义关系划分出网页内容的篇章结构,并以此为基础使用网页的元数据和特殊标签,设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,最后,实验对比了各类位置因子对系统的贡献度.实验结果表明,改进方法的F1值比传统的TFIDF提取技术提高了15.5%,其中,位置因子中的标题,关键词和摘要因素对系统的贡献最大.
- 庞宁
- 关键词:网页元数据加权函数
- 一种恒星光谱分类规则后处理方法被引量:2
- 2013年
- 随着LAMOST巡天的逐步实施,天体光谱数据量极大,对观测数据进行自动分类及分析具有重要的意义。采用常规方法获取的分类规则集中,往往存在大量冗余规则,影响了分类效率和质量。本文给出了一种基于谓词逻辑的分类规则后处理方法,通过利用谓词描述光谱分类规则,并对分类规则集进行谓词演算,消除冗余规则。最后,采用LAMOST观测的恒星光谱数据,实验验证该方法在保证分类准确率不降低的前提下,可大幅提高自动分类效率。
- 蔡江辉杨海峰赵旭俊张继福
- 关键词:天体光谱数据谓词逻辑后处理