国家自然科学基金(61273297)
- 作品数:4 被引量:13H指数:3
- 相关作者:吴共庆胡学钢张玉红周全王钊更多>>
- 相关机构:合肥工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划安徽省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于同义实体识别的Web信息集成被引量:3
- 2015年
- 准确有效地集成海量Web信息,是Web信息动态聚合、市场情报分析、舆情分析、商业智能等分析型应用的重要基础.针对数据集成过程中不同实体指代同一实体的问题,利用搜索引擎返回的页面摘要信息,设计并实现了一种基于搜索引擎的同义实体识别算法FSE,并提出了一种基于同义实体识别的Web信息集成框架.在医院信息集成测试数据集上的实验结果表明,FSE算法效果优于基于Varient Dice、Varient Cosine、Varient Jaccard、Varient Overlap相似度计算的同义实体识别算法.
- 徐喆昊吴共庆胡学钢
- 关键词:WEB信息集成相似度计算搜索引擎
- 利用D-S证据理论进行特征融合的同义实体识别被引量:6
- 2018年
- 针对现实中同一实体存在不同表象的问题,提出一种基于D-S证据理论特征融合的同义实体识别方法。以搜索引擎为外部知识库获取实体特征信息,利用相似函数计算特征值,由D-S证据理论融合一组特征值,经阈值判断完成同义实体的识别。特征融合识别算法在医疗机构数据集上的识别精度、召回率和F值分别达到了85.80%、81.18%、83.43%,比单纯利用实体名的算法分别提高了4.09%、4.30%和4.21%。实验表明D-S证据理论将多特征融合,对同义实体识别具有更好的识别效果。
- 何晶晶蔡德胜介飞吴共庆
- 关键词:D-S证据理论搜索引擎相似函数
- 面向跨领域情感分类的特征选择方法被引量:3
- 2013年
- 数据标记的难以获取使得跨领域适应成为一种有效的途径.然而情感分类具有较强的领域依赖性,利用传统的特征选择方法在原始领域构建的特征空间不能体现领域间的共性,难以适用于目标领域.为此,提出一种面向跨领域情感分类的特征选择方法(LLRTF),利用对数似然比选取在原始领域富有判别力的特征,并通过对照两个领域的统计信息,选出其中在目标领域影响较大的特征.基于该方法构建的公共特征空间,能减少领域间数据分布的差异.实验结果表明,LLRTF优于基准算法.
- 张玉红周全胡学钢
- 关键词:情感分类
- 基于多重特征的双层Web用户聚类方法被引量:1
- 2018年
- 通过对Web日志的聚类分析,可以发现用户的群体特征,甚至可以预测用户将来的访问模式,进而为不同的用户群提供个性化服务。针对现有方法的一般缺陷,包括特征选择单一无法充分体现用户兴趣偏好和传统Hierarchical算法在用户聚类时存在的收敛效率低、易受用户访问多样性影响的问题,提出了基于多重特征的双层用户聚类方法。该方法采用多重特征对用户相似性进行度量,并在此基础上进行双层聚类。采用基于密度的DBSCAN算法来排除用户会话中的离群对象和发现不规则簇,然后再采用自底向上的Hierarchical方法对第一层的聚类结果进行聚类。实验结果表明,该方法具有良好的稳定性和聚类效果。
- 王钊樊钊
- 关键词:WEB日志聚类方法