基于卷积神经网络的图像分类算法

一、引言

图像分类, 即给定一幅输入图像, 通过某种分类算法来判断该图像所属的类别。图像分类的划分方式十分多样, 划分依据不同, 分类结果就不同。根据图像语义的不同可将图像分类为对象分类、场景分类、事件分类、情感分类。图像分类的主要流程包括图像预处理[1]、图像特征描述和提取以及分类器[2]的设计。

随着计算机的快速发展以及计算能力的极大提高, 深度学习逐渐步入我们的视野。在图像分类的领域, 深度学习中的卷积神经网络可谓大有用武之地。相较于传统的图像分类方法, 其不再需要人工的对目标图像进行特征描述和提取, 而是通过神经网络自主地从训练样本中学习特征, 并且这些特征与分类器关系紧密, 这很好地解决了人工提取特征和分类器选择的难题[3]。

二、图像分类中常用的经典卷进神经网络模型

常用于图像分类的经典CNN网络结构模型种类繁多。下面仅对CNN最初的模型以及历届ILSVRC大赛中获得冠亚军且较之前网络结构创新性较大的图像分类模型以及其优缺点作简要分析。

(1) LeNet模型:其网络共涉及60k参数。该模型的基本结构conv1 (6) ->ool1->conv2 (16) ->pool2->fc3 (120) ->fc4 (84) ->fc5 (10) ->softmax, 括号中的数字代表通道数。其中, 卷积层用于提取空间特征, 池化层进行映射到空间均值下采样, 全连接层将前层是卷积层的输出转化为卷积核为的全局卷积, 其中h和w分别为前层卷积结果的高和宽;全连接层将前层是全连接层的输出转化为卷积核为1×1的卷, 该层起到将“分布式特征表述”映射到样本标记空间的作用。最后, 输出 (output) 层采用soft-max分类器, 其输出为一个向量, 元素个数等于总类别个数, 元素值为测试图像在各个分类上的评分 (各个分类上的元素值加起来为1) , 元素值最大的那一类即被认定为该测试图像所属的类别。

(2) AlexNet模型:该网络共涉及约60M参数, ILSVRC2012冠军网络。AlexNet有着和LeNet相似的网络结构, 但网络层数更深, 有更多的参数。AlexNet是一个8层的卷积神经网络, 前5层是卷积层, 后3层为全连接层, 其中最后一层采用softmax进行分类。该模型采用RELU来取代传统的Sigmoid和tanh函数作为神经元的非线性激活函数, 并提出了Dropout方法来减轻过拟合问题。但即便如此, 该模型相较于LeNet模型其深度仅仅增加了3层, 其对图像的特征描述及提取能力仍然十分有限。

(3) GoogLeNet模型:该网络共涉及5M参数, ILSVRC2014冠军网络。该模型最大的特点在于引入了Inception模块, 该模块共有4个分支, 第一个分支对输入进1×1卷积, 它可以跨通道组织信息, 提高网络的表达能力;第二个分支先使用了1×1卷积, 然后连接3×3卷积, 相当于进行了两次特征变换;第三个分支类似, 先是1×1的卷积, 然后连接5×5卷积;最后一个分支则是3×3最大池化后直接使用1×1卷积。该Inception模块的引入大大提高了参数的利用效率。同时该模块使用1×1卷积核对输入进行降维, 也大大减少了参数量。GoogLeNet相较于之前的网络模型其深度大大增加, 达到了史无前例的22层, 由于其参数量仅为Alexnet的1/12, 模型的计算量大大减小, 但对图像分类的精度又上升到了一个新的台阶。虽然GoogLeNet模型层次达到了22层, 但想更进一步加深层次却是异常困难, 原因在于随着模型层次的加深, 梯度弥散问题愈发严重, 使得网络难以训练。

(4) VGGNet模型:该模型是ILSVRC2014的亚军网络, 它是从AlexNet模型发展而来, 主要修改了如下两方面: (a) 使用几个带有小滤波器的卷积层代替一个大滤波器的卷积层, 即卷积层使用的卷积核较小, 但增加了模型的深度; (b) 采用多尺度 (Multi-Scale) 训练策略, 具体来说, 首先将原始图像等比例缩放, 保证短边大于224, 再在经过处理的图像上随机选取224×224窗口, 因为物体尺度变化多样, 这种训练策略可以更好地识别物体。该模型虽然在ILSVRC2014没有获得冠军, 但其与冠军的成绩相差无几, 原因在于上述两点改进对模型的学习能力提供了非常大的帮助。但该网络使用的参数过多, 训练速度缓慢, 后续研究仍可在此问题上继续优化。

三、结语

本文对基于卷积神经网络的图像分类进行了介绍。详细介绍了一些图像分类中常用的经典卷进神经网络模型。

摘要：随着信息时代的到来, 信息数据爆炸式增长, 图像信息表达生动直接, 逐渐成为主流信息传播方式之一。图像数据量也迅猛不断增长。人们需要一种快速高效合理的方法对图像进项处理分析。深度学习是机器学习的一个崭新的领域, 卷积神经网络属于机器学习领域研究的范围, 是一种高效的识别方法。基于卷积神经网络的图像分类方法成为目前图像分类的主流算法, 如何有效利用卷积神经网络来进行图像分类成为国内外计算机视觉领域研究的热点。本文介绍了目前较先进的基于卷积神经网络的分类方法。

关键词：卷积神经网络,图像分类,深度学习

参考文献

[1] Bhattacharyya S.A Brief Survey of Color Image Prepro-cessing and Segmentation Techniques[J].Journal of Pattern R ecognition R esearch, 2011, 1 (1) :120-129.

[2] Zhang D, Liu B, Sun C, et al.Learning the Classifier Combination for Image Classification[J].Journal of Computers, 2011, 6 (8) :1756-1763.

[3] 李彦冬, 郝宗波, 雷航.卷积神经网络研究综述[J].计算机应用, 2016, 36 (09) :2508-2515+2565.

基于卷积神经网络的图像分类算法

一、引言

二、图像分类中常用的经典卷进神经网络模型

三、结语

参考文献

热门文章

相关推荐