您的当前位置: 首页 > 活动中心 > 公益培训 > 内容

第340期【齐悦读—线上共读—透视新科技】《刷脸生活》

2022-03-02 11:30:26 来源: 点击量:
0

讲座题目:透视新科技——刷脸生活   

主持人:杨帆

做客嘉宾:赫然,中国科学院自动化研究所研究员。陈征,博士、北京交通大学物理教师。

讲座时间:2022年2月28日~3月6日

(备注:讲座视频可循环播放)

https://article.xuexi.cn/articles/video/index.html?art_id=4872131025469519916&read_id=79b702a1-eccb-4b05-8efb-9a89969e4dfc&ref_read_id=144ec08d-7835-4f18-8b4b-5864997fd412&reco_id=&mod_id=&cid=&source=share&study_style_id=video_default_id

讲座内容:

观众朋友们大家好!欢迎收看《透视新科技》,我是主持人杨帆。近年来,从手机解锁到金融支付,从门禁打卡到安检进站,刷脸这个词汇越来越频繁地出现在我们的工作和生活当中。那么刷脸究竟是一项什么样的技术?随着这项技术的大规模应用,是不是已经意味着我们进入了刷脸时代了呢?2019年9月25日,北京大兴国际机场正式投入运营。这里的智能通行引起社会的广泛关注,旅客从进入航站楼到登机口,通过刷脸就能顺利完成值机、行李托运、安检等流程,大大提升通行效率。今天做客我们演播室的两位嘉宾,一位是中国科学院自动化研究所研究员赫然老师,欢迎您赫老师!主持人好!还有一位是北京交通大学物理教师陈征博士,欢迎您,陈老师!主持人好!两位嘉宾您看,就是刷脸这个概念其实已经广泛存在于我们的生活当中了。那么能不能先请赫老师给我们介绍一下刷脸究竟是一个什么样的技术?

刷脸指的就是我们通常所说的人脸识别技术。人脸识别技术就是通过计算机程序,比如人工智能算法,对人的脸部特征进行分析,进而达到识别主人身份这样的一个目的。那陈博士在我们生活当中的观察,觉得刷脸这项技术是一个什么样的概念呢?我来举一个例子,我小的时候,我妈妈给我介绍她的同事,她就会说这个人大眼睛,弯弯的眉毛,高鼻梁,然后红红的嘴唇,这就是所谓的生物特征。刷脸就是看我们脸上的这些特征,通过眼睛、眉毛、鼻子、嘴等等的这些特点,然后把我们从人群中能够分辨出来的,我就把它认为这是刷脸。刚才陈老师提到一个概念,就是生物特征。赫老师给我们具体讲讲生物特征又指什么呢?人脸是一种最典型的生物特征,生物特征是指我们本身所固的一些特性,具有随身携带、终身不变的特点,比如说我们的虹膜,我们的指纹,还有我们的掌纹。对,生物特征这个东西,首先特征每个人都有,但又各有不同的就叫特征。那么,刚才赫然老师说的虹膜也好,指纹也好,掌纹也好,甚至包括我们的声纹,某种意义上讲,在一段时间内都是不会发生明显改变的,这些东西都可以拿来做生物识别的一个标志。那这么多特征在生物特征里面,为什么偏偏是人脸识别这项广泛应用呢?

实际上人脸识别它是一个很多计算机程序精密组合的一个结果,第一步,首先我们需要把现实世界的人,转换成计算机可以处理的一个信息数据,这个就叫做数据采集。什么就叫计算机可以处理的数据?实际上在计算机里面,它存储是以二进制的一个数字的形式,而我们现实世界,它是一个三维的世界,这个时候我们就要把具体的现实世界的人像转化成一个计算机可以存储的一个图像。有了这个图像之后,计算机就需要找到人脸在这个图像中的位置,以及是否有这个图像,可能很多情况下我们这个图像中没有任何人脸,很多情况下图像上有很多人脸,这个时候我们计算机就要通过搜索程序找到人脸的位置及它的大小。它怎么能知道这个是人脸而不是别的呢?计算机是使用了搜索的策略,它先给定了不同大小的搜索的一个矩阵,然后在每一个像素逐点进行扫描,我们返回一些扫描结果比较高的矩形框,然后把这些矩形框进行一个合并,来判断是否是一个人脸的位置。它是有一个阈值,还是……对,有这样的一个相似度的阈值,如果我们觉得这个区域和人脸比较相像、相似,我们就返回一个比较高的位置,以及人脸之间的大小。

我提供另外一个视角,大家参照着看,可能更容易看懂这件事,就是计算机怎么读懂人脸?它至少有这么几部分,首先要先看见,就像你的面貌,通过我的眼睛进到视网膜里,送到大脑里去一样。就先需要有一个光学的机构,通过拍摄把你的形象变成一个数字的图像,这实际上就像拍照片的过程,然后计算机再按照刚才赫然老师说的,我们先去对它进行一些处理。比如说我判断什么地方,我能识别到眼睛,能识别到嘴,基本的方法就像刚才赫然老师说的,在这张照片上一个点,一个点往过找。以这个点为中心,上下左右方圆找有没有眼睛,有没有鼻子,有没有嘴,它们之间的相对位置是不是一个正常人的相对位置,如果是OK,这个点就是人脸的中心,如果不是它就不是人脸的中心。我再看下一个点,用这种方式搜索出人脸,然后,再进一步把局部的特征,比如说眼睛、轮廓边界在哪儿?把这些点找出来,那么当我把这些点连起来了以后,它就勾勒出我的脸型了,那这个可能就构成了一个特征。这样判定了是人脸以后又该做什么?

接下来我们就要做人脸关键点检测,也就是要检测到人的眼睛、鼻子、嘴巴,它具体的位置,包括我们的脸型,这实际上也是一个精密的过程,我们在说话的时候,有各种各样的表情,还有各种各样的姿态,我们计算机程序它是不知道的。因此我们在初始化的时候,会初始化一个位置,然后这个位置是根据一个通用的形状去初始的,然后计算机程序逐渐地搜索它每一个相应的位置,找到最准确的一个位置。您说到的这个好像有点校准的意思。对,是的。可是我的脸就摆在镜头前面,还需要校准吗?赫然老师的意思就是说它可以勾勒出我这脸大概是这样,然后但是我拍到的可能是侧面,可能是低头,可能正在大笑。那么它利用这些关键点,把我的一些表情,一些姿态,做一个标识,知道我现在在什么状态,然后重新把它对应到一张标准证件照的状态上,这样,然后就可以做后续的处理。

对,就实际上相当于我们证件照的一个位置,他眼睛是他水平的一个状态,没有任何表情的一个形式,所以在统一标准之下,我才好进一步做识别。对的,是的。实际上当我们把所有的人脸图像,包括不同远近的还有不同表情的人脸图像,进行一个校准之后,我们得到一个大小一样的图像,这个时候我们就使用学习算法,对它这个数据进行学习,进而得到了一个稳定的特征。比如说在开始的时候,我们表达的是这种眼角或嘴角,还有鼻子这种边界的信息,在中间的时候可能表达是我们鼻子的形状。比如说眼睛的形状,这样特殊的一个信息,在最后一层的时候可能表达是整张人脸不同的一个具有特性的信息。当然这个比对过程很难做到,就是每一位都一样,那么只要满足一定的条件,就是刚才大家说的阈值。所谓的阈值,其实我们每个人最熟悉的阈值是什么呢?

就是考试的及格线,达到60分及格你就过关,这就叫超过阈值。没达到60分,对不起你要补考,这就是没达到阈值。对我们这个也是这样,我们识别出来的码,和数据库里的码做对照的时候,它的相似度达到超过60分了,这就是基本是他。差超过80分了,几乎可以肯定了。超过90分了,你看我的肯定度就更高,对不对。用这样的方式,通过这张照片可以判断出来这张脸的所属的信息。比如说他的身份,他的编码,这样就完成了一个基本的过程。您说的比对是不是可以理解成和自己身份证件照的比对?其实这件事,你今天进机场还能遇到,过安检的时候,安检员拿起证件照。人工识别。这就是个比对过程。其实我们的生活当中都有体验,现在火车站、机场进站都刷脸了,这是为什么?

在以前的时候,我们需要安检人员去比对我们的身份证,和我们的人脸信息。这个时候安检人员,他就要不断地看你的人脸和身份证,来确定出来显著的区域来区分不同的人脸。但安检人员,如果几个小时都做同一件事情的时候,他就会疲劳,他的速度和精度自然就会下降。而人脸识别算法,它不存在这样的一个疲劳的问题,对于每一个新来的人,它都是立刻就能进行一个处理,同时它通过一系列精密的程序之后,它就能更准确地来识别整个的人脸,这样的话就给用户一个更好的一个体验。显然,我们这个就是智能的这种识别系统要更快捷,更快捷而且更准确。其实某种意义上讲,为什么人脸识别如此广泛地使用,人脸识别其实是最自然的一种识别方式,我们用了几千年。为什么这么讲?我怎么判断你和赫然老师不一样呢?

我第一眼就先看脸。对。比如说我见着你和赫然老师,我要分辨你们两个,不能说你们把手伸过来让我看看有几个簸箕几个斗,这种识别方式行不行呢?可以,但是这显然是一个不便的方式。从这个角度看今天的人脸识别技术,为什么这么快的推广?这是我觉得首先它的便利性就是第一位的,过去之所以没使用,主要是因为要让计算机读懂人脸,看得出这张图像里有人脸,还能分辨出一张脸和另一张脸不一样,这是一个特别精密,特别复杂的过程。所以我们被迫使用了一些相对简单的办法,比如指纹,比如掌纹这样的技术。今天因为我们的算法水平达到了,计算机的算力达到了,包括我们的图像获取的技术也达到了,这个时候我们就自然就要使用这种最方便,然后最自然的一种分辨身份的方式。对。只要我们能把人脸这个事识别够精确,我们肯定就更愿意使用这种技术。通过计算机的识别来判断每个人的生物特征,面部特征,但是有很多人是长相相似的,是吧。你比如说就一个眼型的问题,有的人的眼睛是月牙眼,有的是丹凤眼,还有的是环眼。那环眼和环眼,大眼睛和大眼睛,它这个细微的差别,计算机是怎么做到(分辨)的呢?

在做人脸识别的过程中,我们会收集大规模的数据,然后加上我们的学习算法,这两个在一起我们就可以预测很多的情况。不同的眼睛,不同的嘴巴,还有不同的位置,它都会有不同的一个特征,这个特征通过一个层次化的一个过程,我们最终判别出来这个人是否是同一个人,还是不同的一个人。层次化的过程,也就是说它的精准度要很高,才能区分出长相相似的人的差别。这个机器它通过学习过程,它已经积累很多的经验,它在不同层次会学习到不同的一个特征。比如说我们眼睛大小,或者眼睛的形状,这样的话它在最终的时候,它就会得到不同的一个结果。而我们人有的时候他会存在脸盲的一个状态,他无法找出来具体的一个特征。我们分辨两个人是不是长得相似或者长得一样,我们人实际上还是利用了这种所谓的局部特征的方式来判断,但是他就有很明显的局限。

今天因为有了一个更有利的武器,就是刚才赫然老师说的机器学习,它是一套全新的方法,它通过积累大量的人的图像的数据,然后交给机器。通过一套算法,这套算法简单说就是我针对一张图片,先制定一个基本的,我给它编一个标准。然后再拿一张图片,然后根据这张图片再修正我的标准,不断地拿图片来不断地修正,就使得我认识它的这套标准,就越来越精细,越来越准确。通过大量的图片,不断地就修正这个过程,就所谓的学习的过程,就使得我的认知能力就越来越强,我的识别能力就越来越高,我能判断的细微之处就越来越多。实际上近几年人工智能取得了飞速的发展,实际上就是机器的学习能力得到很大的提高,我们可以在成千上万,甚至几千万或者几亿的数据上,图像数据上进行一个学习,这样就会得到一个稳定的结果。你想象一下,1000万张照片,如果我们一秒钟看一张照片要看多久?1000万秒。你应该就能感受出来,实际上它这个东西背后有多少计算了。那我还想到一种情况,就是遮挡的情况下,对面部的识别还能那么精准吗?我们也在场外进行了一个实验,大家一起来看一下短片。

脸部遮挡之后的实验员,来到人脸识别系统前,短短的几秒钟,人脸识别系统就确认了实验员的身份,她顺利通行。但是当实验员戴上口罩之后,情况却发生变化,这一次识别失败,实验员的通行被拒绝了。赫老师,刚才那个短片我们也看到了,在实验员脸部被部分遮挡的情况下,是可以识别出来的,这是为什么?我们在识别的过程中,当我们出现遮挡的时候,整个的计算机程序,它就能自动选择一些,没有被遮挡的区域,比较有信息含量的区域,这个时候它就能识别出来具体的一个人脸。好像我注意到,遮到鼻子以下的部分,就是鼻子和眼睛都露的时候是没有问题的,那么再往上走,这机器就困惑了。我们经常会做一个游戏,就是把脸遮挡起来,然后一点一点露出来让你来猜。哎,对。在这个过程中,就像我们刚才说的人工智能,实际上是从你脸上提取了很多的特征做比照,当你的完整的脸露出来的时候,我可能能做到95分、98分。那么,可能遮挡了一部分以后,我有一些信息丢掉了,但还能抓到一些,这个时候可能只有80分,甚至70分。但是如果我们设定的及格线是60分,那这个时候61分、60分也能及格,我觉得你可以用这种方式去看待这个事情。

赫老师,我听陈老师这么一讲,我觉得这个机器也有猜的成分。实际上机器它不是猜,它跟人一样能主动地去选择一些没有被遮挡,然后具有信息含量的一个区域,它通过对这些区域的一个信息的提取,选择出来不同的判别的信息来区分不同的人,这样的话就能准确地识别出来他一个戴着墨镜的一个人。就像陈老师说的,它大于一个阈值之后,我们认为他就是一个,同样的一个人,比如说我们可能61分,就算同一个人,它这是有一个置信的一个程度的。所以有时候也是存在偏差的。这个偏差不能叫做猜,因为本身判断的过程,专业的名词叫冗余,我们普通的说(法)就是什么?我想确定一件事,我自然希望你向我证实一下,赫老师也向我证实一下,然后我再找几位都向我证实一下,事实上可能只需要有两个人向我证实就够了。它就已经是准确的了,但平常我就总觉着多几个人的时候更保险。我觉得用这样一个比方,可能更容易理解这件事。这个是在遮挡的情况下,它可能有所识也有所不识的时候,那我们再给它增加一个迷惑项,就是化妆,不知道这种情况下能不能顺利通过呢?

化妆不仅可以改变人脸的轮廓,还会使人的眼睛大小,嘴巴的形状等发生不同程度的变化。我们给同一个实验员化上不同浓度的妆容,再对其发型、服饰稍作调整,人脸识别系统依然可以将实验员数据库中的素颜照片和改变妆发后的实验员准确匹配。赫老师,刚才我们从短片当中看到,其实在妆效比较浓的情况下,也是可以识别人脸的,这是不是意味着在任何的情况下,我改变妆效都是可以顺利识别?实际上日常生活中,我们的妆容都是可以正常识别的,但是对于某些特殊情况下,比如说五彩妆或者烟熏妆,或者我们化个京剧脸谱,这种情况下系统还是无法进行识别的。由于我们在算法设计过程中,都考虑到了妆容的情况,我们会增加很多的训练数据,使得我们的人脸识别算法能够识别出来相应的一些妆容的情况。但如果是妆容显著地改变了你脸部的区域的话,这个时候是无法识别的。嗯,所以我这儿有一个疑问,因为化妆只是改变皮相,她的骨相还在那儿,所以现在机器这么看来,并不是看着你的骨骼的状态。

应该这么说,人脸识别真正被识别的是一张照片,是那张图片。那这张图片拍到的东西才是能被处理的东西,显然我们的骨头是被藏在里面,我们是没有办法直接从图片上读取这些信息的。它实际上相当于对图像的一个抽象的过程,它把一个具有各种纹理结构,还有各种眼情、鼻子信息的一个图像,它抽象化成了一个很短的编码,一个01的编码。在最后比对的时候,它实际上比对的是01码编的之间的一个相似度。我举一个最简单的例子,来解释刚才赫然老师说的,把图像的抽象过程,什么意思呢?比如说我拍到了一张我的照片,然后我知道有两个眼睛,这两个眼睛是黑的,那么我就把这张照片里面每一个像素点都设定一个值,这个值小于某一个值,它是黑色,然后大于这个值的,全部设定为白色,这就是一个抽象过程。事实上在人脸识别的过程中,它的抽象过程远比这个要复杂。刚才听两位老师说,人脸识别计算机的人脸识别,真的是非常强大,它是不是真的那么无懈可击,天衣无缝呢?我自己有几个假设,就是这个机器是人脸就能识别吗?或者说我拿一个照片,或者拿一段视频给它看,会不会迷惑它?这就涉及到人脸识别的另外一个技术,就叫做活体检测技术。实际上你让计算机程序去判断,在摄像头面前的是真人,还是一个图片,还是一段视频。究竟能不能准确地判断?我们还是通过场外的实验来验证一下。

我们的实验人员拿着当场拍摄的照片和视频,依次在人脸识别系统前进行识别。结果发现,人脸识别系统可以检测到实验人员的面部存在,但是却不可以准确匹配到相关身份信息。这又是为什么呢?你看那个照片我好理解,它不动,但视频拍的也是活灵活现的,那它怎么也能发现?这种情况的话,是根据不同的应用场景,比如说我们去火车站或者是去机场这种情况下,本身就有安检人员,这个时候我们拿着身份证的时候,是本人拿的身份证,因此就不存在检测是图片或者是视频,这种活体检测的问题。而在很多应用场景下,比如说我们开一个门锁,手机的解锁,这个时候我们就要进行活体检测。它怎么做到分辨出真的人和照片和视频的呢?其实最早的活体检测,就是让人动一动,那么后来就会发现,我们可以用视频的方式去规避掉这种方法。因为视频或者是照片,和一个真实的人站在摄像头前还是有细微的差别的,那这个细微差别到底在哪儿?不同的算法在通过学习的时候,它可能找到的区别的那些所谓的特征,可能有所不同,这个呢,我们其实并不能非常准确地说出就是某一点不同,它是通过大量的学习来分析出来的一些不同的特点。

随着5G网络打造的智慧城市的开启,人脸识别技术将在其中占据不可或缺的一席,金融、安防、教育、医疗、交通运输、休闲娱乐等,越来越多的领域都将出现人脸识别技术的身影,而随着刷脸时代的来临,必将为各行业带去新的发展趋势。我们可以看得出来,这项技术真的是快捷、准确又高效,那在现在的技术条件下,是不是意味着在任何情况下都可以准确地识别出人脸?人脸识别技术发展到当前,实际上已经能够满足我们日常生活的需求,但是在很多特殊的场景下,这个时候我们还需要一些图像增强技术,才能达到一个较好的识别结果。比如说在黑天情况下,光照比较暗的情况下,这个时候我们就无法找到人脸,也无法进行一个人身份的识别。还有比如说我们在运动速度比较快的时候,我们离摄像机比较远的时候,这个时候我们人脸会比较小,会比较模糊,这个时候就很难识别出来一个人脸。

能不能识别这件事,其实要分两部分来看。第一能不能获取一张清晰的人脸的照片,比如你在卫星上向地面拍一个图像,这个时候你就拍不出一个有足够多细节的人脸,这就做不到。另一种就是我们前面说的那些有限制的情况,就拍到了一张清晰的照片,但这张照片因为有化了特别浓的妆,比如说化个京剧脸谱,这样的情况,使得后边的计算机系统没有办法把它正确地比对、识别出来,应该是受这两个条件限制。通过计算机不断地自我学习,在未来我们希望它达到一个什么样的效果?比如说我们身份证识别,我是十年前办的身份证,和我现在的面容肯定是不一样的,机器也能够准确识别吗?比如说您是在5岁的时候和您30岁的时候,她的人脸差异是非常大的,但如果您从20岁到30岁这个期间,她变化是相对不是那么明显的,这个时候你就可以得到一个稳定的识别结果。

其实你是没有办法定义一个确定的分界线,所以我想和不同的人工智能识别的系统,不同的学习方式,不同的计算方法,不同的特征提取方式跟它们都有关。所以刚才赫然老师讲的概念,我觉得它是一个宽泛的,大家大概在这个范围内。我们没有办法定义说五年就可以,五年零一个月不可以,五年零两个月不可以,五年零一天可以,这个做不到。但是会不会赫老师有一个大的趋势,就是随着计算机自我学习能力的增强,它识别的年龄段会越来越大。实际上我们现在也在做这方面研究,我们希望给定一张图像,然后能预测他小时候和老的时候图像的样子,实际上(时间)跨度能跨度七十年左右,这样的一个形式。但现在只是处于一个初级的研究阶段,我们还需要进一步深入地研究,需要更多的数据使得能更好地得到一个学习的结果。我不知道陈老师对于人脸识别技术有什么样的期待?简单说任何一个技术,都不可能包打天下,就任何一个技术都不可能是万能的。我们通过刚才的工作,刚才赫然老师的介绍,知道人脸识别技术其实就是图像的获取和分析处理的一个过程,那么我们希望就是获取的这部分精度越来越高,在恶劣的条件下也能获得清晰的图像。在识别这部分,我们就希望即便有比较大的变化的时候,也能够准确地识别出这个人,那么这个就是我们对人脸识别技术未来发展方向的一个基本的期望,希望它能够适应更多的场景,还是那句话,简单、高效、便捷、安全。

未来的话,实际上我们还要结合在很多情况下,还要结合多生物特征的一个技术,这样能得比较好的一个结果。比如说在煤矿的场景下,这个时候光一个人脸识别技术是不够的,因为煤矿工作者他在进入煤矿之前和进入煤矿之后,他有比较大的一个差异,这个时候我们就会使用虹膜识别技术。中科院自动化所也提出了一种虹膜识别技术,广泛应用到煤矿里面,来建立(确定)一个人的身份,就综合运用起来把这个技术。还有很多场景下,我们有双胞胎,还有长得兄弟姐妹长得比较像的时候,这个时候光凭人脸识别技术就无法识别出来,准确地鉴别一个人的身份,这个时候我们可能要配合指纹和虹膜的识别,这样的话达到一个精准识别的程度。还有比如说我们在很多安全性比较高的场所,这个时候我们也需要使用综合的一个生物特征识别的技术,来达到一个准确的身份的识别。我们觉得随着人脸识别技术越来越成熟,市场的需求会越来越增加,也相信将来会带给我们更多的便利和惊喜,让我们拭目以待。好的,非常感谢二位嘉宾的精彩讲解,也感谢电视机前的观众朋友收看本期《透视新科技》,下期再会。

【责任编辑: 系统管理员 】