行人检测综述

2024-10-17 版权声明 我要投稿

行人检测综述(共6篇)

行人检测综述 篇1

摘要:行人检测是汽车自动驾驶的基础技术之一。基于深度神经网络模型的行人检测方法取得的效果已经远超于使用传统特征经行识别得到的效果。仿生物视觉系统的卷积神经网络作为深度学习的重要组成、在图像、语音等领域得到了成功应用。其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究热点。通过增加网络层数所构造的深层神经网络使机器能够获得抽象概念能力,在诸多领域都取得了巨大的成功,又掀起了神经网络研究的一个新高潮。本文回顾了神经网络的发展历程,综述了其当前研究进展以及存在的问题,展望了未来神经网络的发展方向。

关键词:行人检测;卷积神经网络;深度学习

Survey of Pedestrian detection based on Deep Neural Network Yin Guangchuan,Zhangshuai,Qi Shuaihui

Abstract:Pedestrian detection is one of the basic technologies of unmanned vehicles.The pedestrian detection method based on the deep neural network model has achieved much more effect than the traditional one.Convolutional neural network which imitates the biological vision system has made great success on image and audio, which is the important component of deep learning.Local receptive field, sharing weights and down sampling are three important characteristics of CNN which lead it to be the hotspot in the field of intelligent machine vision.With the increasing number of layers, deep neural network entitles machines the capability to capture “abstract concepts” and it has achieved great success in various fields, leading a new and advanced trend in neural network research.This paper recalls the development of neural network, summarizes the latest progress and existing problems considering neural network and points out its possible future directions.Keywords: pedestrian detection;convolutional neural network;deep learning

国防科技大学课程设计

机器视觉 引言

行人兼具刚性和柔性物体的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测成为计算机视觉的研究难点与热点。行人检测技术由于应用的广泛性使其在计算机视觉领域成为一个重要分支,对视频监控、车辆辅助驾驶、智能机器人等多个领域提供了重要的技术支持。近几年来,深度学习在大规模图像分类方面取得的了重大突破,表明深度学习可以从多媒体内容中提取具有很强表达能力的特征。卷积神经网络(Convolutional NeuralNetwork,CNN)[1]提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习到图像中的特征,并且完成对图像特征的提取和分类。作为神经网络领域的一个重要研究分支,卷积神经网络的特点在于其每一层的特征都由上一层的局部区域通过共享权值的卷积核激励得到。这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学习与表达。CNN 把特征提取归入模型学习,把特征学习和分类学习有机结合起来,更有效地实现对图像的识别.特别是近两年,卷积神经网络受到了更为广泛地关注.CNN 可能是机器学习领域近十年最成功的研究方向,因此本文拟对 CNN 的发展和其在行人检测上的研究成果进行了介绍,并对其预期研究方向进行展望。卷积神经网络的研究历史 世纪60年代,Hubel等[2]的生物学研究表明,视觉信息从视网膜传递到大脑中是通过多个层次的感受野(Receptive Field)激发完成的;1980 年,Fukushima[3]第一次提出了一个基于感受野理论模型Neocognitron。Neocognitron 是一个自组织的多层神经网络模型,每一层的响应都由上一层的局部感受野激发得到,对于模式的识别不受位置、较小形状变化以及尺度大小的影响。Neocognitron 采用的无监督学习也是卷积神经网络早期研究中占据主导地位的学习方式。

行人检测综述 篇2

行人检测即判断输入的图像或视频序列中是否出现行人,并确定其位置,该技术可广泛应用于智能交通中的车辆辅助驾驶系统[1 - 6]、人体行为分析[7 - 10]、机器人开发[11]、视频监控[12 - 14]等领域。由于人体姿态各异,衣着变化多样,场景中经常存在光照变化、气候变化以及景物遮挡等因素,行人检测业已成为计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。目前国内外已有很多关于行人检测的报道[3 - 5,9]。本文从现有各种行人检测方法所采用的行人描述特征着手,将现有方法分为基于全局特征的方法、基于人体部件特征的方法和基于立体视觉特征的方法三大类( 如图1所示) ,分别对其中较具代表性的方法进行评述,同时介绍目前常用的行人数据库的特点,最后分析了行人检测技术中存在的难题并对未来的发展做出展望。

2现有行人检测方法

2. 1基于全局特征的方法

该类方法是目前较为主流的行人检测方法,主要采用边缘特征、形状特征、统计特征或者变换特征等图像的各类静态特征来描述行人,其中代表性的特征包括Haar小波特征、HOG特征、Edgelet特征、Shapelet特征和形状轮廓模板特征等。近年来许多研究者也逐渐将行人的运动信息应用于行人检测,取得了较好的效果。

2. 1. 1基于Haar小波特征的方法

Papageorgiou和Poggio[15]最早提出Harr小波的概念; Viola等引进了积分图的概念[16],加快了Harr特征的提取速度,并将该方法应用于行人检测[17 - 18],结合人体的运动和外观模式构建行人检测系统,取得了较好的检测效果, 为行人检测技术的发展奠定了基础。此后,大量采用Haar小波特征的改进行人检测方法被提出[19 - 21]。

2. 1. 2基于HOG特征的方法

Dalal和Triggs[22]在2005年提出梯度方向直方图( Histogram of Oriented Gradients,HOG) 的概念,并将其用于行人检测,在MIT行人数据库[15]上获得近乎100% 的检测成功率; 在包含视角、光照和背景等变化的INRIA行人数据库[22]上,也取得了大约90% 的检测成功率。HOG是目前使用最为广泛的行人特征描述子。Zhu等人[23]提出积分直方图的概念,加速了HOG特征的计算,并通过计算多尺度HOG特征,结合Adaboost算法构建级联分类器,建立了一个快速的行人检测系统; Qu等人[24]提出无背景情况下的HOG特征的概念,既消除了通常情况下背景因素对目标HOG特征的影响,又加速了HOG特征提取的速度,实验表明该方法在处理视频中的行人检测时,效果好于基于传统HOG特征的方法; Wang等人[25]将HOG特征与局部二值模式( Local Binary Pattern,LBP) 相结合, 用于存在部分遮挡情况下的行人检测,使用线性支持向量机( Linear Support Vector Machine,SVM) 作为分类器,在INRIA行人库上取得了97% 的检测率,但是它的高运算复杂度也限制了实时应用。

2. 1. 3基于edgelet特征的方法

B. Wu等人[26]提出了“小边”( Edgelet) 特征的概念, 即一些短的直线或者曲线片段,如图2b所示,并将其应用于复杂场景的单幅图像的行人检测,在CAVIAR数据库上取得了大约92% 的检测率。文献[27]将Edgelet特征用来对已知类别的物体进行检测和分割,取得了较好的效果。Edgelet特征的优点是: 1) 受光照影响较小; 2) 利用边缘的强度和方向信息能够较有效地剔除背景中与Edgelet在形状上相似的边缘; 3) 只需存储片段的位置和方向信息,故所需存储空间较小,匹配计算也较简单; 4) 对行人存在遮挡以及视角、姿态的变化更不敏感。缺点是由于每个Edgelet特征需要手动标定,所以比较耗时费力,而且对于一些本身较复杂的曲线,很难通过手工标定的方法来得到完全符合人体曲线的“小边”特征。

2. 1. 4基于Shapelet特征的方法

针对上述Edgelet特征存在的缺点,Sabzmeydani[28]在2007年提出了一种可以利用机器学习的方法自动得到的特征,即Shapelet特征。该算法首先从训练样本提取图片不同方向的梯度信息,然后利用Ada Boost算法进行训练, 从而得到Shapelet特征。

图2给出了人的头肩、躯干和腿部的Shapelet特征和Edgelet特征。从中可以看出,Shapelet特征与人体曲线更符合,能够更好地描述人体特征。文献[28]基于Shapelet特征在INRIA数据集上取得了90% 的行人检测成功率, 而误报率只有FPPW = 0. 01% 。Yao等[29]利用Shapelet特征训练得到一个全身检测器,该算法优于基于Haar - like特征的部分检测器; 他们进一步将上述两种检测器相结合构成一个行人检测系统,在INRIA数据集上取得了95% 的行人检测率,检测效果优于单独使用其中任何一个检测器的情况。

2. 1. 5基于轮廓模板的方法

该方法是指利用图像中目标物体的边缘轮廓、纹理和灰度等信息构建模板,通过模板匹配的方法检测目标。 Gavrila等[30]较早提出了基于人体边缘轮廓的模板识别方法用以检测行人; 文献[31]在此基础上将人体的形状特征与边缘信息相结合来更好地表示人体外观。基于形状轮廓的检测方法简单易行,由于它只在原始图像数据上进行运算,不需要对图像进行分割和特征提取处理,从而保留了图像的全部信息。缺点是由于行人姿态各异,故需要构建大量的形状模板才能取得较好的匹配效果,而且可能出现分类错误。

2. 1. 6基于运动特征的方法

近年来一些学者尝试将目标的运动信息加入到行人检测系统中[32 - 34],并与其他静态特征相结合用于检测行人。其中较具代表性的算法包括: 1) Viola等人[18]针对摄像机静止的情况提出在不同图像上计算Haar - like特征, 然后将运动信息与图像的灰度信息相结合构建行人检测系统。该方法检测速度为4 f /s( 帧/秒) ,误检率较低,而且适用于雨雪天气等恶劣气候条件下低分辨率场景的行人检测,但对于行人被遮挡的情况检测效果较差; 2) Dalal等[35]针对摄像机运动的情况,提出将基于外观的梯度描述子和基于运动的差分光流描述子相结合来构建行人检测器,但该方法只对单个窗口的检测比较有效,对于整幅图像检测效果则很差。文献[19]对所采用的运动特征进行了适当的修改,解决了这一难题。

2. 2基于人体部件的方法

该类方法的基本思想是把人体分成几个组成部分, 然后对图像中每部分分别检测,最后将检测结果按照一定的约束关系进行整合,最终判断是否存在行人。目前已有一些较有效的算法[36 - 39]。Mohan等[40]将人体分为头肩部、腿部以及左手臂和右手臂4个部分,然后使用Harr小波特征训练SVM检测器。Mikolajczyk等[41]将人体分成正面的人脸/头部、侧面的人脸/头部、正面和背面的头肩部、侧面的头肩部以及腿部,然后对每个部分采用SIFT ( Scale - Invariant Feature Transform) 特征进行描述,该方法在MIT行人库上的检测结果优于文献[42]所提出的方法。文献[43]提出了一种基于部件的多线索混合专家框架,可处理部分遮挡情况下的行人分类。Vinay D. Shet等[44]提出了一种基于双网格逻辑推理的行人检测方法, 将人体分为头、上身和腿部三个部分,在USC数据库[45]上获得了92% 左右的检测成功率,对存在不同程度遮挡的行人检测率也达到了90% 以上。该类方法的优点是: 1) 降低了人体某一部分被遮挡时对行人检测结果的影响; 2) 对人体各部分分而治之的思想,降低了整体检测的难度,而且各个部分之间的几何约束关系也对最终检测的精度有很大的帮助。

2. 3基于立体视觉的方法

该类方法是指通过2个或2个以上的摄像机进行图像采集,然后分析图像中目标的三维信息以识别出行人[46 - 48]。文献[21]利用三维信息估计路面参数用来筛选出感兴趣区域( ROI) ,并利于这些信息对所获得区域进行分类,构建了一个检测率较高的行人检测系统。文献[49]提出对左右视角的多个图像进行ROI提取,并将其用于模式分类,降低了目标检测的误报率。文献[50]利用车载立体摄像机,将图像亮度信息和三维密集立体信息相结合,构建了一个直立行人检测系统。该类方法的优点是充分利用场景中目标图像的深度信息进行行人区域的分割,速度较快。

3行人数据库

到目前为止,行人检测研究除提出了大量的行人检测方法外,另一个成果是收集了多个行人数据库以供不同方法进行测试和比较。表1列出了目前常用的行人数据库,下面对每个数据库的特点做简要说明。

1) MIT行人数据库[15]是较早公开的行人数据库,该库包含正面和背面两个视角的彩色行人图像,数据库未划分训练集和测试集,且不包含负样本。该库在2005年以前使用较多,因图像背景简单,目前较少被人使用。

2) INRIA行人数据库[22]是目前使用较多的静态行人数据库,包含训练集和测试集,且均包含正样本和负样本。该库行人所处背景复杂,人的姿态也较多,而且含有光照等环境因素的变化,更加符合实际场景。

3) Daimer行人数据库的图像来源于车载摄像机,分为检测数据集( Classification Benchmark)[10,43]和分类数据集( Detection Benchmark)[46],图片均是灰度图像。每个数据集均由训练集和测试集组成。测试集是一段大约27 min的视频,其中包含完整的以及被部分遮挡的行人。 数据库中还包含3个辅助的非行人图像的数据集,即这3个附加库只包含负样本。该库中大量的正样本由较少的正样本经过移位和镜像生成,所以训练分类器时重要特征会出现在相邻的多个位置上,从而产生模糊效应,分类效果不佳。

4) Caltech行人数据库[4]是目前规模较大的行人数据库,库中的图像来源于车载摄像机,与现实生活中图像的实际遮挡频率一致,其中包含质量不太好的图像。数据集分为训练集和测试集,但测试集的标注信息尚未公开。 该数据库为评估已有的行人检测器的性能提供了一个较好的平台。

5) TUD行人数据库[19]提供图像对以便计算光流信息,该数据库主要用于评估运动信息在行人检测中的作用,常用于行人检测及跟踪研究中。

6) NICTA行人数据库[51]是目前规模较大的静态图像行人数据库,包含25 551张单人的图像和5 207张高分辨率非行人图像,但不包含运动信息,已经划分好训练集和测试集。

7) ETH行人数据库[44]是基于双目视觉的行人数据库,采用一对车载摄像头拍摄获得,给出了标定信息和行人标注信息,同时采用置信度传播方法获取深度信息。该数据库主要用于多个行人的检测与跟踪研究。

8) CVC行人数据库目前包含3个数据集: CVC - 01[52],CVC-02[53]和CVC-Virtual[54]。其中,CVC-02包含3个子数据集,分别针对行人检测的3个不同任务: 感兴趣区域的产生、分类和系统性能评估。CVC-Virtual是通过Half-Life 2图像引擎产生的虚拟行人数据集以用于测试。该数据库主要用于车辆辅助驾驶中的行人检测研究。

9) USC行人数据库[45]的图像大部分来源于监控视频,是一个比较小的行人数据库,包含3组数据集: USC- A,USC-B和USC-C。其中,USC-A中包含正面或者背面拍摄的行人,行人之间无相互遮挡; USC-B中包含多个视角下且存在相互遮挡的行人; USC-C包含多视角下无相互遮挡的行人。该数据库主要用于存在遮挡和多视角情况下的行人检测研究。

4现存问题及研究展望

行人检测技术的研究尽管已经取得了一些成果,但仍存在一些难题亟需解决,主要问题和未来的研究方向如下:

1) 行人高度问题。根据几何知识可知,图像中行人的高度与摄像机到行人之间的距离成反比,即两者之间距离越远则图像中行人高度越小[55]。研究表明[4]: 当图像中行人高度为30 ~ 80像素时,现有算法的行人检测取得最佳效果。目前大多数的研究均集中在行人高度为100像素以上的情况,对于远距离( 即小高度) 的行人仍无法检测。而在实际的车辆辅助驾驶系统应用中,需要解决的是远距离的行人检测问题,以便让驾驶员有足够的反应时间来采取措施避免事故。

2) 复杂场景问题。包括场景中行人被车辆、景物或者其他行人遮挡的问题,光照变化造成的阴影问题,人体姿态变化问题以及人体穿着变化等问题,所有这些均对行人检测结果有很大影响。

3) 分类器问题。目前,常用的分类器主要有SVM、 Ada Boost和神经网络等。研究表明,使用单一分类器进行检测时误报率高,检测准确率低,速度较慢,多场景适应性差。采用串联组合分类器的方法仅解决上述检测速度慢的问题,而采用并联组合分类器的方法仅能解决检测率低和多场景适应性差的问题[9]。所以研究出一种能够全面协调解决上述问题的分类器组合方法,也是行人检测技术发展面临的一大难题。

4) 多特征融合问题。尽管目前人们提出了许多有效的行人描述特征,但大量研究表明,任何基于某一单独特征的方法都很难获得最佳的行人检测效果,而将不同的特征相互结合起来使用检测结果最优[34 - 35]。但如何实现多特征的融合,使获得较高检测性能的同时,又兼顾计算复杂度和检测速度,也是未来研究的一个重要方向。

摘要:行人检测是计算机视觉领域极具挑战性的研究热点,它在智能交通、机器人开发和视频监控等领域具有重要应用。从行人检测所采用的特征着手,对现有的行人检测方法进行了分类和评述,分析了各类方法的优缺点,同时,介绍了常用的行人检测数据库的特点,最后分析了行人检测研究中存在的难题并对未来的发展做出展望。

行人检测综述 篇3

关键词:支持向量机;行人检测跟踪;TLD

中图分类号:TP391.4 文献标识码:A

文章编号:1674-2974(2016)10-0102-08

Abstract:A new method based on optimized TLD (Track-Learning-Detection) and SVM (Support Vector Machine) for tracking pedestrian was proposed. First, with pedestrians as positive samples and the background as negative samples respectively, HOG (Histogram of Oriented Gradient) descriptor of pedestrian was extracted and combined with linear SVM to train the pedestrian classifier,which was used to obtain the calibrated pedestrian area accurately. Then, adaptive tracking and online learning on the pedestrians on the basis of TLD were integrated to estimate the reliability of the positive and negative samples, to rectify error existing in the current frame caused by detection and to update the tracking data simultaneously to avoid subsequent similar mistakes. The experiment results demonstrate that, compared with the conventional tracking algorithm, the proposed algorithm can not only significantly adapt to occlusions and appearance changes but also automatically identify and track pedestrian targets at arbitrary position, manifesting stronger robustness.

Key words:support vector machine; pedestrian detection and tracking; TLD

在计算机视觉应用中,长期稳定实时检测跟踪运动物体已经成为一个重要的研究课题,随着技术的不断成熟,该领域的应用也相当广泛,比如:工业生产、实时监督、自动目标定位、自动导航、人机交互、增强现实技术、SLAM、游戏开发等.研究人员根据实际应用的需要提出不同的跟踪方案,其中D.Comaniciu等[1]利用改进的mean-shift来跟踪运动物体,该方法可通过迭代步骤找到离跟踪目标最近的位置,但其不能解决目标被遮挡或发生形变等问题,在前后背景颜色相似的环境中,容易发生目标跟丢的情况.Martinez等[2]用背景差分法提取目标,根据轨迹建立数学模型实现行人跟踪,该方法可取得较好的检测效果,但由于计算时间长,跟踪的实时性不能得到保证.季玉龙等[3]提出的对运动目标建模的方法需要大量的先验知识,对视频帧中出现的相似目标干扰没有很好的鲁棒性,不能保证长期的跟踪性和适应性.

TLD算法[4-7]将检测过程和跟踪过程融合起来并引入学习机制,当目标发生形变或被遮挡时,可以实时更新目标模型,实现在线学习和评估,在一定程度上可以克服目标外观变化及运动模糊,具有较强的稳定性.但是TLD算法中的跟踪目标并不能自动识别,当目标移动过快时,跟踪准确度也有所下降,因此泛化性仍有待提高.本文在其基础上提出了一种基于支持向量机分类优化的行人跟踪学习检测方法,该方法利用SVM分类器检测到待跟踪目标,保留TLD算法在复杂背景下对目标区域实时学习与跟踪的基础上在检测模块中加入图像特征点配准[8]以实现更高的跟踪精度.

1 方法概述

本文利用视频初始帧中行人方向梯度直方图和支持向量机检测出行人在视频帧中的特征及位置,将目标行人提取出来,记录行人位置左上角坐标与行人的宽和高.确认目标后将视频帧输入到检测模块与跟踪模块并产生相应的实时正负样本,学习模块根据捕捉到的正负样本不断将信息反馈给检测模块与跟踪模块,利用图像特征点配准进一步剔除图像元中的误配点,达到良好的检测跟踪效果.算法具体框架如图1所示.

2 基于HOG与线性SVM的行人检测方法

2.1 行人特征提取

行人特征可以用灰度、边缘、SIFT特征、Haar特征等来描述.由于HOG[9]属于对局部目标进行检测,对阴影、光照条件的变化、小角度旋转以及微小行人动作有较好的鲁棒性.因此本文采用HOG来提取行人特征.目标的HOG提取过程[10]如下:

1)对图像进行gamma校正以实现标准化,降低噪声干扰及光照影响,如图2所示.

2)对各像素点求梯度大小及方向,捕捉目标区域的轮廓.

3)构建细胞单元梯度方向直方图.

本文中行人检测样本取自Navneet Dalal, Bill Triggs建立的INRIA数据库,库中图片像素为64×128.以8×8像素作为一个cell单元,对单元内每个像素梯度进行统计并投影到9个bin中.将2×2个cell作为一个block,扫描步长为单个cell,依次对图像进行遍历,则共有105块block,每个block中有2×2×9=36个特征描述子,最终整个图片包括36×105=3 780个HOG特征描述子.

4)根据式(5)对HOG特征描述子进行L2 范数归一化后用作后续分类识别的特征向量:

2.2 使用支持向量机(SVM)检测行人具体位置

在机器学习中,SVM[11-12]被广泛应用于训练感知器与统计分析及分类中.该算法可将低维向量投影到高维空间中,并在此空间中形成一个最大分离超平面,使其距离平面两端的数据间隔最大,如图3所示.最大分离超平面如式(6)表示:

为训练分类器,本文选择包含不同姿势及形态的行人图像作为正样本,不包含行人的任意背景图片作为负样本.本文选择3 000张正样本(如图4(a)所示),2 000张负样本(如图4(b)所示)并将其标准化为64×128像素作为训练样本.

用初次训练好的分类器检测不包含人体的图像,有时会得到错误的目标区域[13-14],将这些错误区域(Hard Example)归到负样本中,再次进行训练,迭代多次,可明显改善分类器效果.最终训练好的分类器可将行人区域很好地划分出来,效果图如图5(a),(b)所示.

3 利用改进的TLD对行人进行跟踪

在初始帧利用SVM分类器得到待跟踪行人位置后,将位置信息传递给TLD中的bounding box以对该算法进行目标区域的初始化.TLD(Tracking-Learning-Detection)是一种对特定目标进行自适应检测与在线学习并实现实时跟踪的算法[15],该算法将目标跟踪任务分成3部分:跟踪模块、学习模块和检测模块.3部分协同组合,并以并行方式运行发挥各自优势[16],具有较高的可靠性和鲁棒性.

3)PN学习过程中[18],先给定一个视频和扫描框,同时用分类器标定出视频区域中的目标和背景,用跟踪器来提供正的训练样本,检测器提供负的训练样本.跟踪器跟踪目标后,靠近目标窗口的扫描窗口通过P约束来更新检测器,若扫描窗口中不存在目标物体,则N约束更新检测器.P约束利用时间连续性,根据前一帧目标出现的位置预测目标轨迹,估计目标在当前帧的位置,若检测器将此位置定义为负样本,则P约束生成正样本;N约束分析出当前帧目标可能出现的最优位置,与此位置重叠度低的区域标记为负样本,继续更新跟踪器.PN约束通过在线处理视频帧逐步提高检测器正确率,相互补偿来确保学习模块的稳定性与可靠性,利用误检来提高学习性能.

4 实验结果与分析

本实验编程平台:VS2010与opencv2.4.3开发库;MATLAB R2013a.

微机环境配置:CPU Intel(R)Core(TM)i3-4150 3.50 GHz,内存为4 G.

4.1 实验测试集说明

为了更好地验证本算法检测跟踪目标的鲁棒性和准确性,将实验结果与文献[19]中高斯混合模型改进的meanshift跟踪算法[19],文献[20]中kalman滤波和模板匹配跟踪算法[20]及基本TLD算法分别在4种不同的数据集中进行验证比较,并分析各算法的准确性、实时性及鲁棒性.其中shooting和football序列来自网上公开测试集VTD_data_images,pedestrian1及 pedestrian2数据集为实时采集.测试集序列内容如表1所示.

4.2 性能分析

4.2.1 算法准确性比较

将本文算法、改进的meanshift算法、kalman滤波和模板匹配算法、基本TLD算法在不同的测试集中进行实验,对比跟踪效果.用式(16)来表示跟踪成功率:

score=area(RT∩RG)area(RTRG).(16)

式中:RT表示跟踪算法跟踪到的目标区域,RG表示目标实际所在区域.若score>0.5,则认为该算法正确跟踪此帧.测试集实验结果如表2所示.由表2可知,在未遮挡情况下,各算法均可以获得较准确的跟踪结果,但在有遮挡时,本文算法正确率均高于其他各算法.

本文算法、文献[19]改进的mean-shift算法、文献[20]kalman滤波和模板匹配算法及基本TLD算法在pedestrian1测试集中跟踪部分结果(分别选取测试集第30帧、第53帧、第174帧、第350帧)如图8所示.从图8可知,当目标未被遮挡时,3种算法都可以准确跟踪行人,目标被遮挡后,基本TLD算法、文献[19]与文献[20]中的跟踪算法均出现目标跟丢甚至误检现象,而本文算法可始终追踪到行人,对目标定位跟踪表现出良好的抗干扰性和准确性.

4.2.2 算法实时性比较

本文采用平均帧率(average frame per second)作为算法实时性分析的评价指标.各算法在测试集中的平均帧率如表3所示.由表3可知,基本TLD算法与本文算法在测试集的处理上速度高于其他两种算法,而由跟踪准确性分析可知,本文算法比基本TLD算法获得了更准确的跟踪结果,表现出较强的跟踪性能.

4.2.3 算法鲁棒性分析

在pedestrian2序列中(如图9所示),行人检测分类器确定目标位置后,当目标姿势变化较大时,学习模块通过在线学习不断更新跟踪模块和检测模块样本,确定新的正样本.本算法在目标侧身,转身,消失然后重现时均可以准确跟踪行人,当相似目标出现时则不返回跟踪框,表现出良好的抗干扰性.

5 结 论

检测跟踪一直是计算机视觉研究的热点和难点,而TLD算法通过在线学习与检测,根据产生地正负样本不断更新跟踪结果,具有较好的实时性与准确性.本文在其基础上引入SVM行人检测分类器,确定并读取目标区域位置信息,实现行人的自动识别,同时联合图像配准技术,将误配点排除,跟踪精度得到进一步提高.最后进行实验验证,通过与当前两种主流跟踪算法及基本TLD算法在不同测试集上进行试验比较,可知本算法在长时间跟踪过程中能够不断适应目标形变带来的干扰,表现出更好的跟踪效果与鲁棒性能.

参考文献

[1] CQMANICIU D, RAMESH V , MEER P. Real-time tracking of nonrigid objects using mean shift[C]//Proceedings in Computer Vision and Pattern Recognition, Hilton Head Island, SC: IEEE Conference,2000:2,142-149.

[2] ANTONINI G,MARTINEZ S V,BIERLAIRE M,et al.Behavioral priors for detection and tracking of pedestrians in video sequences[J]. International Journal on Computer Vision,2006,69( 2) : 159-180.

[3] 季玉龙,董天罡,梁海军,等.基于粒子滤波的多区域辨识性建模跟踪算法[J].四川大学学报:工程科学版,2013,45(1):79-83.

JI Yu-long,DONG Tian-gang,LIANG Hai-jun,et al. Robust particle tracking via multi- region based discriminative modeling[J]. Journal of Sichuan University:Engineering Science Edition, 2013,45(1):79-83. (In Chinese)

[4] KALAL Z,MATAS J,MIKOLAJCZYK K. Online learning of robust object detectors during unstable tracking[C]∥Proceedings of 12th International Conference on Computer vision workshops. New York: IEEE Xplore,2009: 1417-1424.

[5] KALAL Z,MATAS J,MIKOLAJCZYK K. Pn learning: bootstrapping binary classifiers by structural constraints[C]∥ Proceedings of Conference on Computer Vision and Pattern Recognition. New York: IEEE Press,2010: 49-56.

[6] ALALZ K,MIKOLAJCZYK K,MATAS J. Forward-backward error: automatic detection of tracking failures[C]∥Proceedings of International Conference on Pattern Recognition. New York: IEEE Press,2010: 23-26.

[7] KALAL Z,MIKOLAJCZYK K,M ATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34( 7) : 1409-1422.

[8] 魏国剑,侯志强,李 武,等. 融合光流检测与模板匹配的目标跟踪算法[J]. 计算机应用研究,2014,31 ( 11) : 3498-3501.

WEI Guo-jian, HOU Zhi-qiang, LI Wu,et al. Object tracking algorithm fused with optical flow detection and template matching[J]. Application Research of Computers, 2014,31 ( 11) : 3498-3501. (In Chinese)

[9]DALAL N,TRIGGS B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,International Conference.Beijing:2005:886-893.

[10]DALAL N,TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of Computer Vision and Pattern Recognition,IEEE Computer Society Conference on. San:CA :IEEE, 2005,1: 886-893.

[11]曹文明,王耀南,文益民. 输电线路除冰机器人基于小波矩及SVM 的障碍物识别研究[J]. 湖南大学学报: 自然科学版,2012,39(9) 33-38.

CAO Wen-ming,WANG Yao-nan,WEN Yi-ming. Research on obstacle recognition based on wavelet moments and SVM for deicing robot on high voltage transmission line[J]. Journal of Hunan University: Natural Sciences,2012,39(9) 33-38.(In Chinese)

[12]于海滨,刘济林.应用于公交客流统计的机器视觉方法[J]. 中国图像图形学报,2008,13(4):716-722.

YU Hai-bin,LIU Ji-lin. A vision-based method to estimate passenger flow in bus[J]. Journal of Image and Graphics,2008,13(4):716-722.(In Chinese)

[13]HUANG Dong-ze ,CAI Zhi-hao,XIANG HE Xiang,et al.A SVM embedded particle filter for multi-object detection and tracking [C]//Proceedings of 2014 IEEE Chinese Guidance,Navigation and Control Conference.Yantai:IEEE Press,2014:2094-2099.

[14]方卫宁.基于 RBF 神经网络的复杂场景人群目标的识别[J]. 北京交通大学学报,2009,33( 4) : 29-33.

FANG Wei-ning. Recognizing the passenger number in ccomplex scenes by RBF neural network[J]. Journal of Beijing Jiao tong University,2009,33( 4) : 29-33.(In Chinese)

[15]ANDRILUKA M,ROTH S,SCHIELE B. People-tracking-by-detection and people-detection-by-tracking [C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press,2008: 1-8.

[16]COLLINS R T,LIUY,LEORDEANU M. Online selection of discriminative tracking features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27( 10) : 1631-1643.

[17]YAMAZAWA K, YOKOYA N. Detecting moving objects from omnidirectional dynamic images based on adaptive background subtraction[C]/ / Proceedings of International Conference on Image processing. Institute of Electrical and Electronics Engineers Computer Society,Barcelona, Spain:2003, 953-956.

[18]FENARI V, TUYTELAARS T, VAN G L. Real-time affine region tracking and coplanar grouping[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai, HI: Institute of Electrical and Electronics Engineers Computer Society, 2001:226-233.

[19]QUAST K, KAUP A. Shape adaptive mean shift object tracking using Gaussian mixture models[M].Lecture Notes in Electrical Engineering. Heidelberg: Springer, 2013, 158: 107-122.

[20]陈金令,苗东,康博,等. 基于Kalman滤波和模板匹配的目标跟踪技术研究[J].光学与光电技术, 2014,12( 6) : 9-12.

熊与行人 篇4

俩姐妹有说有笑,边走边看.不知不觉天黑了.

两个姐妹就挑了一块又大又光滑的石头睡觉了.还没等她们躺稳 一只黑熊窜了出来.妹妹一见黑熊就爬上树了,可姐姐不会爬树.

就在着时,姐姐突然想起自然课上老师讲过熊是不碰死尸的.

然后她就躺在地上装死,熊走到她身边时她马上装死,熊也不走.

熊围着她转,她就装死那知道熊还不走,有开始为着打转.

过了一会,熊大致是走累了,就把她当石头,坐在上面.

压的她喘不上气又过了一会,熊走了.妹妹下了树.

对姐姐说熊对你说了些啥,姐姐说:熊说不能共患难的姐妹.

地铁监控中的行人检测方法 篇5

数学形态学是一种非线性图像信号处理和分析理论,它不但符合人的感知系统,而且在描绘区域和结构表达方面有很大的优势,所以受到了很大的重视。借助数学形态学在处理形态相关的图像中的优势,该文通过对地铁监控图像中提取的序列图像进行预处理;再用背景建模法,得到运动人体目标。

1 预处理

因为天气环境的变化等因素常常会引起拍摄图像的变形失真,所以有必要采取合理的预处理措施来改善图像质量。首先,对序列图像中值滤波,它在一定的条件下可以克服线性滤波器等带来的图像细节模糊,而且对滤除脉冲干扰及图像扫描噪声较为有效。然后,采用直方图均衡对图片进行增强,增加对比度以便图像的后处理。

2 背景建模

相比于其他运动目标提取方法,背景建模可以完整的提取运动信息,计算较简便。它是基于序列图像中相邻两帧图像的比较,这样可以将背景与前景分割出来,实现运动目标的识别。基于这种理念,分割性能的好坏与场景中的动态变化联系密切。目前,背景建模的主要方式有Kalman滤波器模型、单高斯分布模型以及混合高斯分布模型等[3]。为了减少动态变化的影响,利用文献2提出的更新背景区域的建模方法对背景进行建模,具体步骤如下:

1)取出图像序列中第s帧和第s+1帧,并做两帧的差分图像,得到运动区域图像,记为M(x,y)。得到的若干个运动区域表示为:

2)以第s帧为背景,取出第t帧和t+1帧,并做两帧的差分图像,得到运动区域图像,记为N(x,y)。得到的若干个运动区域表示为:

3)利用1、2步在s帧中找出静止的区域,记为K(x,y)。

4)观察区域K(x,y),若静止的概率大于3/4,则认为是背景区域。

5)当背景区域不断更新时,前景区域也在不停更新,当背景帧图像近似均匀分布时,可作为终止条件,此时可以得到目标运动区域。

3 运动人体分割

数学形态学是一种非线性图像信号处理和分析理论,它不但符合人的感知系统,而且在描绘区域和结构表达方面有很大的优势,所以受到了很大的重视。该文首先对运动人体利用当前帧与背景帧做差,然后对差图像灰度化,再利用形态学开闭运算进行滤波,并二值化,通过填充孔洞和边界清除,便得到了完整且清晰的运动目标区域。

4 实验结果

本文对自然环境下,地铁站视频图像进行分析,在背景较为复杂的情况下,实现了运动人体检测。采用数学形态学处理,能够满足硬件并行计算的要求,同时满足了地铁站视频监控系统的实时性。从图1可以看出,该方法可以正确分割运动行人。

5 结束语

提出了一种将背景建模与形态学相结合的行人检测算法。通过对地铁站监控图像分析,该算法能在较为复杂的环境中,准确建模,解决了运动目标区域定位问题;实现了人体分割。但是,若地铁站行人较为密集,行人被一些物体遮挡以及光线过明、过暗等情况,该算法不能很好的提取目标区域。

摘要:针对地铁视频监控中行人检测问题,提出了一种将背景建模与形态学相结合的行人检测方法。算法首先对视频序列图像进行预处理;然后利用背景建模不断更新复杂环境中运动区域,提取目标区域;再通过改进的形态学算法对目标区域进行人体检测。实验结果表明,该方法能够准确地检测地铁视频监控中的行人,运算速率较快,鲁棒性较高。

关键词:背景建模,骨架提取,运动分析

参考文献

[1]车志富,苗振江,王梦思.地铁视频监控系统中的行人检测研究与应用[J].现代城市轨道交通,2010:31-36.

[2]雷涛,罗薇薇,樊养余,等.复杂背景下的运动人体骨架提取算法[J].计算机应用研究,2010,27(8):3194-3200.

礼让行人作文800字 篇6

最近几天,一连下暴雨,天气阴沉沉的,我打着伞,急匆匆地回家——我本以为今天上课,谁知不上,害得我又狼狈地跑回了家。我跑在路上,脚踩着水,雨水溅到了路边。忽然,一阵风刮来,我的雨伞一下子被吹翻了,我只好倒提伞,捂着头向最近的商店冲去,好不容易冲到商店雨棚下,终于没有雨水了,我抖抖雨伞,准备待一阵子再走。

这时,一辆车飞驰过来,溅起了漫天水花,我吓了一跳,急忙冲进商店,“哗——”雨水溅到了玻璃上。我十分气恼:“开车的不长眼睛吗?差点淋湿了我!”我冲了出去,看见那辆白色的车正在停车,汽车一会儿后退,一会儿前进。

这时,从商店走出了一位男子,他打着雨伞从那辆车旁走过,与此同时,那辆车转了一个弯,向停车位猛冲,溅起了一阵“波涛”,打在了那男子的身上。

那男子还没醒悟了,又一个“波涛”迎面而来,直扑在他身上,我看着心里有点不安:“这下好了,要打架了,那开车的司机要倒霉了。”可并不是我想的那样,车主打开了车窗,往外望了望,看见有个人站着,全身湿漉漉,但他并没有理会,更没有道歉,只是摇摇手,要路人走开,然后,又一个转弯,第三次将水“洒”在了别人身上。我忽然觉得,那车主太没道德了,他怎么能这样做呢?难道他上学时没学过品德课?难道不是小车该礼让别人才对吗?

只见那男子全身湿湿的,雨伞也歪了,他看着那车子,像傻了一样。最后,车主终于停好了车,下了车后,他看见了那路人,还不满地说:“叫你走开你不走,谁叫你站着呢?活该!真是……算了算了,算我倒霉,给你一点钱算了吧!”说着,从包里拿了几张百元钞票,往男子手上塞,然后,打着雨伞,头也不回地走进了雨帘中。

那男子望着车主远去的背影,狠狠地把钱往车上一砸,“呸”了一声,也淋着雨走了,我望着这一幕,无奈地摇了摇头。

上一篇:燃气公司宣传片下一篇:创建县级卫生先进单位的工作总结