图像描述是使用计算机将一副图像中的内容使用自然语言的形式重新表达,是图像理解任务中极具挑战性的工作。目前,使用深度CNN模型和RNN模型对图像进行编码和解码框架来解决该问题已经成为研究热点,也在多个数据集上取得了突破。但这些工作在使用CNN的过程中对其参数优化不足,且常使用分阶段训练的方式,导致整个系统易陷入局部最优。针对这些问题,在Goog Le Net模型的基础上,利用其中间特征,自底向上添加了两个辅助LSTM分支及其监督函数,通过联合训练,对整个模型进行优化,保证了CNN模型低层参数对任务的有效性,避免了系统陷入局部最优点;同时,由于加入了低层监督函数的干扰,使得模型有了额外的正则化,提高了模型的泛化能力。在Flickr8K和Flickr30K两个数据集上的实验表明,本文方法优势明显,在多个统计指标上均超过了现有其他方法。
使用计算模型对图像进行自动描述属于视觉高层理解,要求模型不仅能够对图像中的目标及场景进行描述,而且能够对目标与目标之间、目标与场景之间的关系进行表达,同时能够生成符合一定语法和结构的自然语言句子.目前基于深度卷积神经网络(Convolutional neural network,CNN)和长短时记忆网络(Long-short term memory,LSTM)的方法已成为解决该问题的主流,虽然已取得巨大进展,但存在LSTM层次不深,难以优化的问题,导致模型性能难以提升,生成的描述句子质量不高.针对这一问题,受深度学习思想的启发,本文设计了基于逐层优化的多目标优化及多层概率融合的LSTM(Multi-objective layer-wise optimization/multi-layer probability fusion LSTM,MLO/MLPF-LSTM)模型.模型中首先使用浅层LSTM进行训练,收敛之后,保留原LSTM模型中的分类层及目标函数,并添加新的LSTM层及目标函数重新对模型进行训练,对模型原有参数进行微调;在测试时,将多个分类层使用Softmax函数进行变换,得到每层对单词的预测概率分值,然后将多层的概率分值进行加权融合,得到单词的最终预测概率.在MSCOCO和Flickr30K两个数据集上实验结果显示,该模型性能显著,在多个统计指标上均超过了同类其他方法.
目的图像分类与识别是计算机视觉领域的经典问题,是图像检索、目标识别及视频分析理解等技术的基础。目前,基于深度卷积神经网络(CNN)的模型已经在该领域取得了重大突破,其效果远远超过了传统的基于手工特征的模型。但很多深度模型神经元和参数规模巨大,训练困难。为此根据深度CNN模型和人眼视觉原理,提出并设计了一种深度并行交叉CNN模型(PCCNN模型)。方法该模型在Alex-Net基础上,通过两条深度CNN数据变换流,提取两组深度CNN特征;在模型顶端,经过两次混合交叉,得到1 024维的图像特征向量,最后使用Softmax回归对图像进行分类识别。结果与同类模型相比,该模型所提取的特征更具判别力,具有更好的分类识别性能;在Caltech101上top1识别精度达到63%左右,比VGG16高出近5%,比Goog Le Net高出近10%;在Caltech256上top1识别精度达到46%以上,比VGG16高出近5%,比Goog Le Net高出2.6%。结论 PCCNN模型用于图像分类与识别效果显著,在中等规模的数据集上具有比同类其他模型更好的性能,在大规模数据集上其性能有待于进一步验证;该模型也为其他深度CNN模型的设计提供了一种新的思路,即在控制深度的同时,提取更多的特征信息,提高深度模型性能。