智能监控归纳起来,无外乎以下两个层面:一是从图像中获得更多的信息,实现系统的预警功能;一是系统具有更高的友好性和可操作性,以适应日益增大的系统规模。两者的实质都是要改变传统视频监控系统对图像信息的处理方式。
智能监控的含义
传统的监控已经很成熟了,技术的进步,摄像机的高质量和低价格,使得图像信息的生产和收集变得相当容易,存贮系统也能够积累大量原始的,未经加工的资料和数据。但是,从这些图像资料中提取有价值的信息,确要花费大量的成本。如果不能很好的解决这个问题,这些图像资料(海量的资料)就会逐渐成为垃圾,而从中输出有价值的信息会很昂贵。真正有价值的东西是要通过对这些大量资料进行认真地分析才能得到,但人工分析(人观察图像)完全无法处理大规模的数据,只有自动化的智能分析(算法)才能胜任这个任务。
从功能的角度看:安全系统如果不具备预警功能就不是好系统,这是安全需求向我们提出的要求和挑战。因此,视频监控系统实现预测和预警功能是智能化的基本标志。
从技术的角度看:实现图像信息的自动解释是监控系统智能化的基础。系统由目视解释转变为自动解释是电视监控技术的飞跃,是技术进步的必然。但如何解释、解释什么需要认真地探索。目前已广泛地应用于银行、博物馆、仓库和停车场的视频监控系统主要的功能是用于事后取证。它损失了图像的基本价值(一个动态的、实时的媒质),与人们对系统真正的期望有很大的差距。安全管理迫切地需要系统能够连续地监视现场的事态,并能及时警告安全管理人员事件(盗窃、破坏、入侵)可能发生或正在进行;预测事件的趋势,提醒管理人员事态的发展到了限定的程度,应该及时地采取措施,以阻止事件的发生或产生严重的后果(损失)。也就是说:安全不满足视频监控系统只具有探测(发现事件的)功能,而是要求系统具有早期探测(预警)的能力。
实现上述功能要求视频监控必须改变传统系统对图像信息不作任何处理的工作方式。对采集到的图像资料进行内容分析,并将分析结果以适当的方式告警安全管理人员;通过分析,过滤掉无用资料,使系统存贮更为有价值,并采用图像内容分析从存贮的大量图像资料中快速的找到有用的信息。它意味着传统电视监控的模式将被改变。以摄像机为核心的结构,转变为以后台图像处理为主,以人的观察为主,转变为以机器处理为主的方式。这个转变正是笔者提出的经典电视监控发展为现代电视监控的标志之一。
社会和经济的进步对安全防范提出了更高的要求,视频监控的系统功能正在逐渐从局部的、微观的防入侵(盗、抢)向宏观的、动态的社会治安(公共安全)管理转变,这是系统设计目标本质的变化。我们知道:传统安防(监控)系统是针对局域性的、相对封闭的空间设计的,它的基本要素是探测、延迟、反应,系统以探测结果为反应的触发信号(响应一个报警)。广域的动态监控系统则是建立在大范围、开放的环境下。它的基本要素是预警、预防、应急反应,系统要拥有多种信息源,响应社会治安的整体事态及趋势。前者针对孤立的事件,因此是以对事件的探测为触发。后者则是要根据对整体形势、事件的征兆的预测,作出有效的防范措施和应急准备。这就要求系统把大量的分散、孤立的图像关联起来,从中分析出规律性的东西。如,社会对一个事件的反映、同类事件发生的概率和分布等。系统不再是以现场安装的摄像机为主要(唯一的)信息源,还要广泛的从媒体、网络、情报系统及其它各种渠道收集图像资料。因此,对海量的图像资料进行分析、分类、统计和关联是系统的主要任务,而这个任务只能由机器的自动解释来完成。
目前,在全国各地开展的“平安城市”建设和公安部推进的“3111监控报警联网系统示范工程”突出表现了上述转变。安全防范从过去的应用于党政机关的要害部门、银行、博物馆、监狱等封闭、固定场所,逐渐开始应用于公共场所社会治安管理、智能交通疏导管理、生产安全管理、公安警用指挥业务等管理性、业务性场合。这些应用的突出特点是系统规模大,信息采集量呈指数增加,信息要在各相关部门之间进行大规模的交换。如有些城市监控系统的图像采集点多达数十万个(包括多种渠道和手段),涉及治安、交通、布控追堵、城市管理、工商管理等众多业务。这些系统不再是分别、孤立地处理各种图像源的信息,而是全面地、从它们之间的相关性和变化过程的特征去分析和判定,从而得出预测性的结果。
同时,系统规模的增大,必定带来运行成本的增加。要提高系统的工作效率,必须实现系统参数、状态自主、优化的调节和各子系统间、各部门间准确、协调的互动。这也是智能监控的主要内涵,因为智能化是自动化的最高境界。
智能监控的突破口
通常会把图像内容分析与图像识别混淆起来,或把图像识别作为智能监控的目标。确实图像识别技术在安防系统中应用前景是非常广阔的,也是安防系统智能化的一个主要方向。但是,对于通常的视频监控应用找不到合适的切入点。下面我们从图像识别的主要应用说起,首先明确:图像识别是指采用图像技术对目标的个体识别,如认定某一个人,找到某一辆车或某一件物。以图像生物特征识别为例,就是采用图像(模式识别)技术识别人体自身载有的、具有唯一性和相对稳定性的特征(如人脸、视网膜、虹膜、指纹、掌纹/形及步态等),确定个体的身份。目前,它们的应用主要有两种方式:
1、验证:是把当事人的身份与正在发生的行为联系在一起,确认其合法性。这是安全防范系统的典型应用,把人的生物特征视作一把钥匙或一张卡。
验证系统因可对特征的输入加以更多的控制,系统的可靠性和稳定性好,也相对成熟,已广泛地应用于出入管理系统中。它的基本工作方式是把特征输入装置读取的特征与系统存贮的有限量的特征样本(这些样本代表了一定的授权)进行比对,来确定请求合法性。通常系统的存贮样本的数量不是很多,现场特征输入的条件又可以加以控制,所以,系统的识别率很高(误识率和误拒率很低)。由于生物特征来自人自身,不需要进行同一认证,具有极高的安全性,因此、适用于高安全性要求的场所,如贵重物品的库房、重要活动或要人访客的出入管理。
2、识别:对输入特征与存贮在数据库中的大量的参考进行比对,来确定目标的身份。这样的系统首先要建立一个海量的基础样本数据库,如各城市人口的指纹库等。对于人脸等生物特征,要求输入的环境与建库的环境具有足够的相关性,以保证输入特征与样本特征的可比性。所以,建立一个稍加控制的环境,以排除或限制影响特征采集不真实(失真、不完整、伪装)的各种因素是系统应用的必要条件。如边防检查系统设立专门的人员通道来采集出入境人员的面部特征;机场安检信息系统在验征台处摄取旅客的面部图像。
两者都是对个体身份的认证,都要求有一个限定的工作环境,这一点通常的视频监控系统是做不到的,而且,它们的工作目标也不是对人体的身份认证。所以,必须在验证与识别之间选择新的切入点。
图像内容分析成为智能监控的突破口就在于:它是在通常的视频监控的环境下(如3111工程所建的系统)实现上述的功能。它对现行系统是锦上添花的方式,不影响现行系统的运行和使用,逐步完善、增加系统功能实现安防系统的智能化。更重要的是,它不仅是提取图像的表面信息(生物特征),而是挖掘并表述图像承载的深层信息,通过对图像序列的分析和多源图像的综合得出预测性、趋势性的判断。而在技术上正是数字视频与特征识别安全防范两大箭头技术的交汇点。
安全科技是围绕打、防两个方面展开的,基础都是获得信息。事发后的信息是证据;事发前的信息是情报,具有预警的价值。视频监控技术要加强后者的研究,就是智能化的方向。技术的发展是循序渐进的,不会在一夜之间出现革命性的变化。但一个重大的事件带来的机遇、产生的推动力将会极大地激励和催化技术的进步。视频监控技术正处于这样的时期,我们应该抓住机遇,追求技术创新、把视频监控技术提高到一个崭新的阶段。
智能监控关键技术
实现智能监控,各厂家提出了不同的技术方案,但关键点都集中于图像内容分析技术。这是正确的方向,可以说图像内容分析技术的发展过程就是智能监控的发展过程。智能监控的实现必须有图像内容分析技术的突破作为支撑。
图像具有极大的信息量,它同时具有空间分辨和时间分辨的能力,但真正把这些信息提取和挖掘出来是复杂和困难的。前面讲了图像系统智能化的主要标志之一是:系统从目视解释(视读)走向机器解释(机读)。它意味着:视频监控将改变系统对图像信息不作任何处理的现状,处理就是对图像信息自动的解读,是理解(understanding)图像,这就是图像内容分析(videounderstanding)的含义所在。现在市场上出现了一些IV(intelligentvideo)产品,都是对图像内容进行基本的分析,如目标的分离、分类、统计,简单背景下单目标的行为分析和跟踪。研究机构则把它作为重要的课题,开展深入的研究,国家“十一五”科技攻关就列入了相关的课题。根据安全的需求,智能监控技术的发展过程或图像内容分析技术的研究可分为以下几个阶段:
1、将(运动)目标从视频图像中分离出来。这是体现图像技术的优势,实现目标探测的前题。传统的视频(运动)探测其实是亮度探测,并没有发挥图像技术的特点。确定图像中是否有探测目标(人、物等),并将目标从背景图像中分离出来是图像内容分析的首要任务,进而对目标分类、统计、关联。判断图像中有无目标、目标的复合或离散等也是图像过滤的基础。
2、对目标进行行为分析,判定其运动的方向、方式,并能发现和告警异常的行为;产生目标的运动轨迹,并能进行目标的自动跟踪。实现运动目标的跟踪是很难的事,它要求系统能分析、预测目标的运动轨迹,并能实时地作出修正。同时,由于运动过程与伺服机构间传递函数的非线性,伺服系统也是很复杂的。
3、在复杂环境下实现目标的分离、行为分析和运动跟踪,特别是实现多目标的跟踪。
上述两点目前已有产品和应用,但基本上在简单环境下,针对少数目标的情况。在复杂环境(既通常的视频监控环境)下实现这些功能,是图像内容分析技术具有真正应用价值的关键。同时、解决多个图像的综合分析,图像间目标的关联,目标跟踪的连续。这都是市场迫切需要,目前还没有解决的问题。
4、实现视频语义的解析,图像内容分析的最高层次。通过对一个图像序列作出分析,得出其包含的真实信息,可以与话音的语义解析(已有了初步的成果)结合起来,逐步实现视频语义的解析,如通过对大量的、多渠道的图像资料的分析,得出社会对某一事件的反映程度;分析和统计某类事件发生,发展的规律(概率及时间、地域分布等)。能够进行这样分析,表明机器具有了与人一样的理解图像的能力,但具有人所不能达到的效率。
这个过程是逐步发展、与时俱进的,没有终极的结果。实现智能监控的目标,要经过不断的技术积累,特别是核心技术的突破,它需要一个过程,不可能一蹴而就,认为监控技术智能化已经实现的观点是不确切的。