公共文化服务平台

杨小汕: 作品数：20 被引量：106H指数：5; 供职机构：中国科学院自动化研究所更多>>; 发文基金：国家自然科学基金国家重点基础研究发展计划北京市自然科学基金更多>>; 相关领域：自动化与计算机技术文化科学更多>>

合作作者

视频行为预测方法、系统、电子设备及存储介质: 本发明提供一种视频行为预测方法、系统、电子设备及存储介质，方法包括：获取待预测的目标视频；将目标视频输入至视频行为预测模型，得到视频行为预测模型输出的行为预测结果；其中，视频行为预测模型用于通过图卷积神经网络对目标视频的...; 徐常胜杨小汕黄毅

基于胶囊网络和多模态信息的疾病诊断方法及相关设备: 本发明提供一种基于胶囊网络和多模态信息的疾病诊断方法、装置、电子设备和存储介质，其中方法包括：确定当前次检测的诊断数据和生理测量数据；对诊断数据和生理测量数据分别进行特征提取，并进行融合得到对应的融合特征；将融合特征转换...; 徐常胜蒋珊萍黄毅杨小汕

一种实时事件流识别方法及系统: 本发明提供一种实时事件流识别方法及系统，包括：确定待识别个体事件；将所述待识别个体事件输入至预先训练好的事件流检测模型，得到个体事件识别结果；其中，所述事件流检测模型是基于不同个体事件样本数据特征进行融合得到融合特征后，...; 胡孟豪潘金星杨小汕徐常胜桑基韬; 文献传递

基于深度学习的鲁棒性L1跟踪系统: 基于稀疏表示的L1跟踪方法近年来在视觉跟踪中获得了较大的成功.但其直接使用视额序列各帧内的像素值对模板和目标候选进行表示,而没有考虑到各图像块内部的深度特征信息.发现,在固定摄像头的视频监控场景中,通常可以找到一块区域,...; 高君宇杨小汕张天柱徐常胜; 关键词：视频图像鲁棒性; 文献传递

基于动态语义记忆网络的长尾图像描述生成被引量：1: 2022年; 图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用。针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果。DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能。为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO。在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.6028%,召回率为0.3234%,F-1值为0.3567%,相较于基准方法提升明显。; 刘昊杨小汕徐常胜; 关键词：图像理解记忆网络

基于视觉属性的社会事件识别方法: 本发明公开了一种基于视觉属性的社会事件识别方法，该方法包括：步骤101，从训练事件视频集中的视频中提取视觉属性，所述视觉属性用于描述与视频对应的事件相关的属性；其中，所述训练事件视频中的每个视频对应一个已知事件类别；步骤...; 徐常胜杨小汕张天柱; 文献传递

基于深度学习的鲁棒性视觉跟踪方法被引量：30: 2016年; 传统的视觉跟踪方法(如L1等)大多直接使用视频序列各帧内的像素级特征进行建模,而没有考虑到各图像块内部的深层视觉特征信息.在现实世界的固定摄像头视频监控场景中,通常可以找到一块区域,该区域中目标物体具有清晰、易于分辨的表观.因此,文中在各视频场景内事先选定一块可以清晰分辨目标表观的参考区域用以构造训练样本,并构建了一个两路对称且权值共享的深度卷积神经网络.该深度网络使得参考区域外目标的输出特征尽可能与参考区域内目标的输出特征相似,以获得参考区域内目标良好表征的特性.经过训练后的深度卷积神经网络模型具有增强目标可识别性的特点,可以应用在使用浅层特征的跟踪系统(如L1等)中以提高其鲁棒性.文中在L1跟踪系统的框架下使用训练好的深度网络提取目标候选的特征进行稀疏表示,从而获得了跟踪过程中应对遮挡、光照变化等问题的鲁棒性.文中在25个行人视频中与当前国际上流行的9种方法对比,结果显示文中提出的方法的平均重叠率比次优的方法高0.11,平均中心位置误差比次优的方法低1.0.; 高君宇杨小汕张天柱徐常胜; 关键词：卷积神经网络视觉跟踪鲁棒性计算机视觉

多模态零样本人体动作识别被引量：5: 2021年; 目的在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion,ZSAR-MF)框架。方法本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network,CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4%左右。结论本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。; 吕露露黄毅高君宇杨小汕徐常胜; 关键词：多模态融合传感器数据视频特征

基于多模态输入的对抗式视频生成方法被引量：5: 2020年; 视频生成是计算机视觉和多媒体领域一个重要而又具有挑战性的任务.现有的基于对抗生成网络的视频生成方法通常缺乏一种有效可控的连贯视频生成方式.提出一种新的多模态条件式视频生成模型.该模型使用图片和文本作为输入,通过文本特征编码网络和运动特征解码网络得到视频的运动信息,并结合输入图片生成连贯的运动视频序列.此外,该方法通过对输入图片进行仿射变换来预测视频帧,使得生成模型更加可控、生成结果更加鲁棒.在SBMG(single-digit bouncing MNIST gifs),TBMG(two-digit bouncing MNIST gifs)和KTH(kungliga tekniska h?gskolan human actions)数据集上的实验结果表明:相较于现有的视频生成方法,生成结果在目标清晰度和视频连贯性方面都具有更好的效果.另外定性评估和定量评估(SSIM(structural similarity index)与PSNR(peak signal to noise ratio)指标)表明提出的多模态视频帧生成网络在视频生成中起到了关键作用.; 于海涛杨小汕徐常胜; 关键词：卷积神经网络

基于知识图谱预测视频精彩级别的方法、装置及存储介质: 本申请实施例涉及视频中精彩片段检测场景，提供一种基于知识图谱预测视频精彩级别的方法、装置及存储介质，方法包括：识别各视频分片中存在的多个语义概念以及获取各语义概念的概率分布特征；根据预设的先验概念和多个语义概念，确定各语...; 杨小汕亓帆徐常胜高孟平王巨宏; 文献传递

杨小汕

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

杨小汕

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈