2016年和2017年,国家先后出台了《互联网+人工智能三年实施行动方案》和《新一代人工智能发展规划》,将人工智能提升到了国家战略层面,同时要加快壮大人工智能在教育、医疗、智慧城市、智能家居等多方面的应用,人脸识别也作为应用方向之一,成为人工智能领域的重点研发项目。
安防已经成为人工智能落地场景中的重要赛道,其涉及的智能视频分析、人脸识别等关键技术也在研究领域受到了极大的关注。那么安防领域中涉及的人脸识别有何痛点?人工智能+安防的未来又有哪些新的趋势?
10月29日,清华大学媒体大数据认知计算研究中心主任王生进教授在2017年第十六届中国国际公共安全博览会(CPSE安博会)政府管理论坛上发表了题为《人像态势识别及其在智能视频监控中的应用》的演讲,他指出,目前我国视频监控建设卓有成效,摄像头的数量惊人,达到了2000多万个。如此大量级的数据只依靠人工监控已经无法实现大规模视频监控,急需人工智能以及智能分析技术有效的技术支撑。
王生进教授从三个方面阐述了人脸识别在安防中的应用:1、新一代人工智能发展与智能安防;2、人脸识别技术与应用系统;3、以人为中心的安防理念与人像态视识别。
一、新一代人工智能发展与智能安防
当前,世界范围内公共安全面临严峻情势,是国际上关注的重大课题,信息内容与情报成为掌控局势的关键要素。面向大数据背景下国家公共安全保障是重大的国家的需求。聚焦公共安全、平安城市、视频监控、网络安全的需求,以安防视频大数据,及网络空间各种视频、图像、语音、网络信息为大数据基础,创新人工智能和机器学习理论,构建公共安全大数据应用技术创新平台是我们工作的重点。
我们现在面向的空间主要有两个。
第一面向物理空间安全:全国平安城市建设视频监控前端数量已超过2000万。目标感知能力不足,大数据给公共安全事件即时感知、精确分析、快速搜索带来巨大困难,急需人工智能技术支撑。
第二面向网络空间安全:网络空间富媒体通信的引入,带来新型媒体信息管控难题,国家急需大数据环境下富媒体内容感知、网络信息安全、网络多媒体内容监测的支撑技术。
十二五期间,全国600大中城市视频采集系统建设已初具规模,监控系统26.8万余个(2009),安装摄像头2000万余个(2013)。按每个摄像头每天约7.2GB (0.3G(CIF)*24)的数据量,北京市摄像头40余万个(2011),每天产生的数据量为 2800TB,数据量巨大。
在这样大量的数据下,依赖人工监控,智能化程度低,无法实现大规模视频监控环境下的事前感知、事中联动、事后有效处理及智能检索。急需人工智能以及智能分析的技术,在视频监控里能够提供有效的技术的支撑。
2017年7月8日,国务院发布新一代人工智能发展规划(国发〔2017〕35号)。人工智能成为国际竞争的新焦点,是引领未来的战略性技术;人工智能成为经济发展的新引擎,作为新一轮产业变革的核心驱动力;人工智能带来社会建设的新机遇,将深刻改变人类社会生活、改变世界。抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国。
根据这个核心,《规划》里提出利用人工智能提升公共安全保障能力的规划和要求。
第一、促进人工智能在公共安全领域的深度应用,推动构建公共安全智能化监测预警与控制体系。
第二、围绕社会综合治理、新型犯罪侦查、反恐等迫切需求,研发集成多种探测传感技术、视频图像信息分析识别技术、生物特征识别技术的智能安防与警用产品,建立智能化监测平台。
第三、加强对重点公共区域安防设备的智能化改造升级,支持有条件的社区或城市开展基于人工智能的公共安防区域示范。
在智能视频分析关键技术方面,我简单列了相关的关键技术:
1、侵入/越界检测;2、遗留物体事件检测;3、拿走物体事件检测;4、徘徊检测;5、行人/车辆检测、跟踪;6、人脸(人像)/行人/车牌识别;7、人群密度监测;8、异常行为(奔跑打架斗殴)检测;9、视频质量诊断;10、视频浓缩与摘要;11、视频内容快速检索;12、图像增强与复原技术。
人脸识别技术应用方面,根据实际应用场景,人脸识别可以分为如下3类:
第一、有配合人脸识别。分认证和查询,通常应用在证件照人脸,声明我是A,然后将A的模板人脸图像和现场采集的A的人脸图像进行比对,给出Yes or No,或查询大库。通常要求配合。
第二、半配合人脸识别。也分认证和查询。通常应用在受限的通道、卡口,进行黑/白名单比对。该类应用通常光照稳定,不要求配合。
第三、非配合人脸识别。查询为主,通常应用在视频监控的动态布控场合,进行黑名单查询。该类应用光照复杂,姿态不确定,难度大。
清华人脸识别技术——人证合一验证通关应用:2005年,由公安部出入境管理局主持集成清华大学人脸技术,世界上首次在我国出入境旅客最多的深圳罗湖口岸开通“旅客自助查验通道” ,日均出入境人数在数十万以上。已推广到深圳、珠海两个地区的边检口岸共已开通了近400条自助通道,近300万旅客,验放旅客超过数亿人次,通过率98%,成为世界人脸识别技术大规模成功应用的范例。
二、人脸识别技术与应用系统
人脸识别技术通过采用摄像机或摄像头,采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关处理技术,通常包括:人脸检测、人脸跟踪、人脸五官定位、人脸归一化、特征提取、分类器训练和比对匹配,以达到识别不同人身份的目的。被广泛地应用在安全、认证等身份鉴别领域,因而被誉为”21世纪十大影响人类生活“的革命性技术。
人脸识别从应用上一般分为人脸检测,人脸五官定位,1:1人脸识别,1:N人脸识别,M:N动态布控。人脸检测与五官定位应用方向:客流量统计,视频检索等。智能贴图,智能美妆美颜,变脸特效等:
1:1人脸识别应用方向是指身份证人脸认证系统,社保人脸识别。
1:N人脸识别应用方向是指身份证照片查重,护照照片查重。比如你现在要做一个护照,你是张三,公安部门会到人口库里面查一下,看你会不会是顶替,也就是一人多证。
M:N人脸识别应用方向是指动态监控,黑名单监控,VIP客户管理系统,校园人脸识别系统,智能楼宇。
人脸识别技术,近两年发展非常迅速。基于机器学习的人脸识别方法方面,人脸识别方法总体上可分为三大类:
一是基于统计的识别方法,主要包括特征脸(Eigenface)方法、隐马尔科夫模型方法、子空间法等;二是基于网络连接机制的识别方法,包括人工神经网络(ANN)方法和弹性图匹配方法等;三是几何特征方法和三维模型等一些其他的综合方法。
1.人脸识别核心课题
人脸识别的过程:令x 为一个待识别的人脸输入,F(x)为一个分类器函数,y 是关于x 的类别标签输出。人脸识别的关键,是获得高性能的F函数。传统的人脸识别的方法(Deep Learning以前): F分类器函数的构建,主要是分步处理、人工设计的。
基于统计学习的人脸识别方法得到了广泛的应用。人脸识别当前遇到的主要困难包括:
人脸面部结构的相似性;人脸的姿态变化;人脸的表情变化;复杂环境的光照变化;人脸的饰物遮挡;人脸的年龄变化
以上问题给人脸识别带来了相当大的挑战。随着深度学习的发展,我们遇到的困难得到了解决。
2.人工智能新浪潮的关键技术——深度学习
人工神经网络是一种端到端的机器学习方法(全步骤一次性学习)。端到端的学习方法一出现给人工智能带来了巨大的推动,应用在AlphaGo,图像识别,语音识别,无人驾驶,VR/AR,智能交通,智能视频,智慧医疗,智能制造。
3.人脸识别关键技术
1)人脸检测:判断输入图像中是否存在人脸;如果存在人脸,返回人脸所在的位置。
2)关键点定位:确定人脸中眼角、鼻尖和嘴角等关键点所在的位置,为人脸的对齐和归一化做准备。
3)人脸归一化:根据关键点的位置,采用相似变换,将人脸对齐到标准脸关键点,并裁剪成统一大小。
4)特征提取:利用海量数据,训练卷积神经网络;将人脸图像表示成具有高层语义信息的特征向量。
5)特征比对:主要是利用Metric Learning等技术,进一步提升识别准确率。
4.人脸检测技术
(1)基于A CNN Cascade for FaceDetection框架。一共6个CNN,3个detection-net用于判断输入的区域是否是人;3个calibration-net对输入的人脸框进行校正,得到更加准确的人脸框。检测过程中采用NMS消除高度重叠的窗口。
(2)人脸识别网络。针对不同人脸识别场景,设计了多种网络架构,以适应不同场景(速度、精度)的要求。图是我设计的一个网络,左边的网络具有速度快的特点,仅需要5毫秒的CPU时间,在LFW上的识别准确率为97.28%,主要用于对实时性要求高的场景。右边的网络,RES-FaceNet,一共包含26个卷积层,5个max-pooling和1个全连接,单个model在LFW上的识别准确率可达99.22%。
三、以人为中心的安防理念与人像态视识别
基于以人为中心的安防理念,提出人像态视识别新概念。安防的重点是人,特别需要关注和获取重点人群的全面信息。例如以下的相关信息:关注人物出现在公共场所和交通卡口;他的行为和举止是否异常;携带包裹进入公共场所,走出后箱包是否消失;其面部表情和神态如何;近期是否有过敏感接触、过激言语等。
人像态视识别
人像态视识别,是我们构建的深度人像识别的一个新概念,即对于人的像态、形态、神态、意态。
—像态包括人脸和行人表观图像;像态,感知两个维度: 1、对感知对象的物理特征进行精准认知,以表达如颜色、尺寸等;2、对这些特征组合的表象进行属性描述,以表达是什么,如车牌、人脸、行人。像态包含表观:人脸、指纹、掌纹、虹膜、指静脉、人群聚集事件等。
形态包括静止和序惯图像。形态,感知两个维度:
1、对感知对象的静止肢体特征进行认知,以表达如动作、姿态等;
2、对感知对象的肢体变化特征进行描述,以表达做什么,如步态、奔跑、逆行。形态包含多种人体肢体特征:姿态、行为、动作、步态、轨迹等。视频监控行人识别系统,是在跨视域视频监控网络中,依据行人外观和步态特征,识别查找追踪在不同摄像头下的特定行人。
神态包括主动和被动下的人脸图像。神态,感知主动和被动两个维度:
1、对感知对象的面部表情特征进行认知,以表达如喜怒哀乐等;
2、对感知对象的面部神色特征进行描述,以表达其内心的波动、思想的意识、精神的状态,通常不为人的意志所控制。神态主要用于表达人的内心状态:神态自若、神色慌张、精神恍惚等。
意态包括显性信息和隐性信息。按照这个范畴定义,构成人像态势识别新概念,智能安防,人是其中核心关键的要素。意态与隐形信息相关联,主要体现在信息的逻辑关系的关联上,具有显性和隐性两个维度:
1、对感知对象行为的企图、目标、后果的显性特征进行认知;
2、对感知对象行为的企图、目标、后果的隐性特征进行认知,以表达其行为与其他事件的关联、影响、及潜在的可能后果。意态的显性特征认知较为容易实现,意态的隐性特征认知难度较大,但实际的事件预测十分需要。例如,同样是购买一把菜刀,如果是一个主妇,可能是用于家庭的厨房餐饮;但若是有前科的人,则需要预警;—又如,一个人长时间在某个地方徘徊,像态是徘徊,但意态可能预示可能的事件。
大数据时代,如何处理从各个数据源收集来的信息,如何对不同地点、不同媒体、不同时间、以及不同清晰度、不同粒度的信息进行综合利用,包括对信息的真伪进行鉴定;都是从未完成过的挑战。显性信息关联,主要体现在目标表观信息的关联上,如目标类型,目标属性,目标状态,目标时空点;隐性信息关联。主要体现在逻辑关系信息的关联上—“蝴蝶效应”,亚洲蝴蝶拍拍翅膀,将使美洲几个月后出现比狂风还厉害的龙卷风!
人像态视识别,全面构建对人的像态、形态、神态、意态的深度识别。通过人像态视识别,实现对目标人的整体信息分析、完善的状态描述。1、2态,侧重“格物”,本意即为考察人这个事物; 3、4态,偏向“致知”,进而达到完善的识别和理解; 人像态视识别的目标就是“格物致知”。综上,通过人像态视识别,实现对目标人的整体信息分析、完善的状态描述。人脸识别系统包含人脸识别、年龄估计、性别识别等,新一代的具有智能的安全监控技术,可实现对人脸的检测、识别和分类;人像态视识别,全面构建对人的像态、形态、神态、意态的深度识别。通过人像态视识别,实现对目标人的整体信息分析、完善的状态描述。
将人像态视识别与智能视频分析有机结合,运用于安防领域,无疑将提高公安安防工作的效率,为平安城市建设和公共安全保障提供精准和有效的信息技术手段,大数据背景下国家社会安全保障重大需求。