公共文化服务平台

徐博: 作品数：26 被引量：154H指数：7; 供职机构：大连理工大学计算机科学与技术学院更多>>; 发文基金：国家自然科学基金辽宁省自然科学基金中央高校基本科研业务费专项资金更多>>; 相关领域：自动化与计算机技术文化科学更多>>

合作作者

基于不同信息资源专利查询扩展方法的研究被引量：6: 2016年; 近年来查询扩展方法已被证明能有效地提升专利检索的平均性能,而大多数查询扩展方法仅使用实验数据集进行扩展词选择,很少有研究将外部信息源利用于专利检索,提高检索准确率。因此,本文在实验数据集基础上,同时采用一种利用外部资源的方法提升专利检索性能。该方法利用谷歌搜索引擎优化查询扩展方法的性能,并采用排序学习方法LambdaMART方法融合不同查询扩展方法,对信息源中的不同文本域进行加权处理,从而提升专利检索性能。在TREC数据集上的实验结果表明,基于本文所采用的信息资源进行查询重构的方法有效地提升了专利检索的性能。; 许侃林原林鸿飞徐博; 关键词：信息检索查询扩展

基于示例语义的音乐检索模型被引量：1: 2017年; 基于语义描述的音乐检索是根据音乐所表达的语义和对音乐的主观感受,查找或发现音乐的一种方式。一个典型的基于语义描述的检索(query by semantic description,QBSD)系统被定义为有监督的多类别标记(supervised multi-class labeling,SML)模型,通过使用语义相关标签来标记未知,将音乐映射到一个"语义空间",从而克服语义鸿沟问题。在SML模型基础上,提出将示例音乐作为检索条件,通过对音乐语义的标注将检索示例映射到语义空间,然后在标记后的数据库中,返回语义相似的音乐。并且采用深度学习算法,设计了多类别标记模型。实验表明该模型能够满足用户基于语义音乐检索的基本需要。; 秦静林鸿飞徐博; 关键词：卷积神经网络音乐检索

基于似然损失函数的组样本排序学习方法被引量：1: 2017年; 组样本用于模型训练,为排序学习方法的构造提供一种新的思路.文中改进已有的组样本排序学习方法,构造组样本损失函数,用于排序学习模型的训练.基于似然损失函数,采用样本偏序权重损失函数和最优初始序列选择方法,构造基于神经网络的组排序学习方法,实验证明文中方法能够有效提高排序准确率.; 林原徐博孙晓玲林鸿飞许侃; 关键词：信息检索

基于检索结果融合机制的对话生成模型: 2021年; 对话生成模型是对话系统中十分重要的组件。传统的对话生成模型仅利用用户的输入信息生成回复,这导致在生成过程中常会出现无意义的万能回复。最近有工作尝试将检索的方法融入生成模型从而提高模型的生成质量,但这些方法往往将重点放在如何编辑检索结果上,没有考虑检索结果与用户查询之间的语义空间差别。为解决这一问题,该文提出了基于检索结果融合的对话生成模型。模型首先利用双向长短时记忆网络对检索结果进行编码,并提出了具有融合机制的长短时记忆网络(fusion-LSTM)。该机制将检索结果在模型内部与对话文本相结合,以更好地将检索到的信息融入到生成模型中。实验结果表明,该方法在自动评价指标和人工评价指标中都明显优于基线方法。; 刘喜凯林鸿飞徐博杨亮杨亮; 关键词：信息检索

人体大数据隐私保护实验平台设计: 2018年; 归纳了现阶段人体传感器网络大数据隐私保护面临的挑战与不足,并通过开展面向人体传感器网络大数据关键技术研究来建立适用于人体传感器网络特殊需求的大数据系统架构,提高系统安全性和隐私性,同时详细介绍了人体大数据实验平台的构成和原理,描述了系统框架的设置和隐私保护方法。实验表明:该平台能够有效保护人体大数据安全隐私,具有较好的教学与科研价值。; 徐博林驰赵哲焕; 关键词：隐私保护

一种用于构建用户画像的多视角融合框架被引量：42: 2018年; 电网公司的电费敏感客户往往对由用电引发的电量、电价、电费、缴费、欠费等电力服务具有强烈反应。快速定位电费敏感客户,对降低客户投诉率、提升客户满意度、树立供电企业良好的服务形象具有重要的作用。基于电网用户数据,提出了一种用于构建用户画像的多视角融合框架,该框架能够快速、准确地识别出电费敏感客户。首先,对电网用户进行了分析研究,利用双通道对不同特性的用户分别建模预测;其次,提出了多种特征萃取方法,用于构建用户多源特征体系;最后,为了充分利用多源特征,进一步提出了基于双层Xgboost的多视角融合模型。该框架在2016CCF大数据与计算智能大赛"客户画像"竞赛中获得了F1值为0.90379(第一名)的成绩,其有效性得到了验证。; 费鹏林鸿飞杨亮徐博古丽孜热.艾尼外

一种用于构建用户画像的二级融合算法框架被引量：30: 2018年; 用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴"标签"。基于用户的查询词历史记录,提出一种用于预测用户多维标签的二级融合算法框架。在第一级模型中,分别在各个标签预测子任务上建立多种模型,使用传统机器学习方法与Trigram特征相结合来抽取用户用词习惯的差异,使用doc2vec浅层神经网络模型来抽取查询词的语义关联信息,使用卷积神经网络模型来抽取查询词之间的深层语义关联信息。实验表明,doc2vec在处理用户查询这样的短文本相关任务时有着相对较好的预测准确性。在第二级模型中,针对用户画像这样的多标签预测任务,使用XGBTree模型及Stacking多模型相融合的方法提取出用户各标签属性之间的关联信息,使得平均预测准确率进一步提高了2%左右。在2016年中国计算机学会(CCF)组织的大数据竞赛《大数据精准营销中搜狗用户画像挖掘》中,所提二级融合算法框架在894支队伍中夺得了冠军。; 李恒超林鸿飞杨亮徐博魏晓聪张绍武古丽孜热.艾尼外

基于词向量和EMD距离的短文本聚类被引量：11: 2017年; 短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。; 黄栋徐博许侃林鸿飞杨志豪; 关键词：相似度计算聚类

基于潜在语义特性的语义双关语检测及双关词定位被引量：2: 2019年; 语义双关语是幽默、笑话和喜剧等作品的来源之一,在人类写作的发展进程中具有重要的历史地位。由于语义双关语存在歧义难懂的特点,因此难以挖掘语义双关语的潜在语义信息,故目前语义双关语的检测和双关词的定位是自然语言处理任务中的一项困难和挑战。该文在语义双关语的理论基础上,挖掘了一系列的潜在语义特性,并构建了对应每个特性的特征集,用以检测语义双关语;同时从潜在语义特性出发,提出了一种基于词向量和同义词融合的语义相似度匹配算法实现语义双关词的定位。在SemEval 2017Task 7和Pun of the Day数据集上均取得了较好的实验结果,验证了该文所提出的检测算法和定位算法。; 刁宇峰杨亮林鸿飞吴迪樊小超樊小超徐博; 关键词：同义词

幽默计算及其应用研究被引量：15: 2016年; 幽默作为一种特殊的语言表达方式,是生活中活跃气氛、化解尴尬的重要元素。随着人工智能的快速发展,如何利用计算机技术识别和生成幽默成为自然语言处理领域热门的研究内容之一,并逐渐形成一个新兴研究领域:幽默计算。幽默计算致力于利用自然语言处理技术理解和识别包含幽默的文本表达,挖掘幽默表达潜在的语义内涵,构建面向幽默表达的计算模型。首先对当前幽默计算的背景进行概述,阐明幽默的可计算性和幽默计算对于人工智能的意义;在此基础上,对幽默研究的发展情况进行回顾,给出幽默研究的语言学基础;然后综述当前幽默计算在幽默识别和幽默生成两个方面的进展情况,分别给出针对幽默识别和幽默生成的计算框架;最后,对幽默计算在聊天机器人、机器翻译、儿童教育软件和外语教学等多个自然语言处理任务中的应用前景和应用模式进行展望。希望通过对幽默计算及其应用研究的总结和概述,完善现有幽默计算模型,增进计算机对于自然语言的理解,推动人工智能的进一步发展。; 林鸿飞张冬瑜杨亮徐博; 关键词：自然语言理解人工智能

徐博

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

徐博

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈