返回列表
人脸识别系列解读(二)丨人脸识别中关于人脸特征值的技术事实和法律问题
2021-08-06

导读

随着5G时代、人工智能的高速发展,我们的生活越来越便捷,依托于人脸识别技术的“刷脸”成为一种新的生活方式。人脸识别,是利用摄像头等硬件设备采集含有人脸的图像,并在图像中检测和定位到人脸,从人脸中提取出特征信息进行匹配的一种生物识别技术。相比成本高的虹膜识别技术,可复制性的指纹识别技术,人脸识别技术因成本低、效率高的优点,广泛应用在智慧金融、电子支付、高铁机场、安防、智慧门禁和电子政务等不同领域,并催生出如商汤、依图、云从、旷视等AI巨头企业。


一、什么是人脸特征值?

由于计算机是二进制的机器,人脸图像并不能被计算机直接使用和识别,需要将其通过算法进行运算转化为人脸特征值,借助特征值来完成匹配、识别等功能。那人脸特征值是如何从人脸图片中提取的?思考一下,我们是如何识别出不同的人。如果迎面走来一个人,我们首先会关注他的人脸轮廓、眼睛大小、眉毛、嘴巴等特征,大脑接收到这些信息后,在我们记忆中的人脸库进行检索,对比以上特征找到最接近的人脸印象。如果有这个人脸印象,我们就能知道他是谁。如果没有,他就是陌生人。同样,计算机也是遵循这种思路。

早期的人脸识别技术多数采用的是传统机器学习算法,通过提取人脸图片的几何特征、表象特征、纹理特征进行对比得到识别分值,通过对分值的加权计算得到最终识别分值(如图1)。根据识别分值的高低,判断是不是同一个人。

图1:识别分值算法路径

但随着人脸图片的分辨率逐渐增加,和视频、三维图片等复杂场景的出现,传统机器算法出现了性能上的瓶颈。得益于GPU并行计算的大规模普及和深度学习算法的进步,人脸识别技术进入了深度学习时代。深度学习算法是在人脸图片上定义多个特征点,提取出该点的鉴别特征,组成一个多维度的特征向量(也叫特征值),利用卷积神经网络(Convolutional Neural Networks, CNN)构建出高维度的模型。在这个高维度模型中,计算出不同人脸图片的特征值之间的余弦距离,来确定它们的接近程度,从而得到相似度(如图2)。

图2:高维度模型

二、人脸特征值是否属于个人信息?

根据《中华人民共和国民法典》第一千零三十四条和《中华人民共和国网络安全法》第七十六条等法律法规对个人信息的定义,个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。参照《信息安全技术 个人信息安全规范》GB/T 35273—2020(以下简称为《个人信息安全规范》),判定某项信息是否属于个人信息,应考虑以下两条路径:一是识别,即从信息到个人,由信息本身的特殊性识别出特定自然人,个人信息应有助于识别出特定个人;二是关联,即从个人到信息,如已知特定自然人,由该特定自然人在其活动中产生的信息(如个人位置信息、个人通话记录、个人浏览记录等)即为个人信息。符合上述两种情形之一的信息,均应判定为个人信息。

人脸是一个人的生物识别信息,而人脸特征值是从人脸图片中提取的特征信息,本身就一定程度上体现出自然人的特点,如果结合其他信息(例如个人位置信息、个人通话记录、个人浏览记录等)就可以识别到特定自然人,因此人脸特征值属于个人信息。所以对于人脸特征值的使用、共享、转让等处理,均需要参照和遵守个人信息的相关法律法规。

三、人脸特征值是否属于个人生物识别信息的摘要信息?

从上文的人脸识别技术介绍可得知,使用人脸识别技术的企业在实际运营中需要采集人脸图像和利用人脸特征值。而且人脸图像又是用于训练人脸识别模型和算法的最佳素材,存储人脸图像和人脸特征值是行业内普遍的现状。

《个人信息安全规范》的6.3条作出了原则上不应存储原始个人生物识别信息(如样本、图像等),仅存储个人生物识别信息的摘要信息的要求。无独有偶,根据2021年1月1日正式施行的《天津市社会信用条例》第十六条,市场信用信息提供单位不得采集自然人的宗教信仰、血型、疾病和病史、生物识别信息以及法律、行政法规规定禁止采集的其他个人信息,在全国首次以法律形式禁止采集生物识别信息。未来会有多少城市跟进这一趋势并不得知,但可以看到,对于人脸图像这一原始个人生物识别信息的采集和存储会面临越来越多的法律规制。而《个人信息安全规范》虽然不建议存储原始个人生物识别信息,但同时提出了仅存储个人生物识别信息的摘要信息的建议。这就延伸出一个问题,人脸特征值是否属于个人生物识别的摘要信息?相信目前正在使用人脸图像进行AI运算的企业,都会关心这一问题。因为如果人脸特征值属于摘要信息,人脸图像被提取出特征值后即可删除,依靠被存储下来的人脸特征值就可以继续后续的身份识别、验证等业务流程。这样,企业因储存人脸图像导致被法律制裁和业务场景中断的风险,将大大降低。

根据《个人信息安全规范》对个人生物识别信息的摘要信息的定义,摘要信息具有不可逆特点,无法回溯到原始信息。因此,我们需要从两个层面分析和判断人脸特征值是不是摘要信息。

1. 人脸特征值的提取依赖于原始图片,而在图片的形成或拍摄过程中,受图片分辨率,光线,人物表情,姿态等因素影响,导致人脸识别技术提取得到的特征与真人的人脸存在差异,而这差异客观上无法解决。就像我们在日常生活中,也容易认错长相接近的双胞胎。我们可以想象这样的例子,如果人脸识别系统中存在多张长相接近的不同人的照片(例如他们是多胞胎),而这些照片是上周拍摄的,人脸识别技术已经将照片的人脸特征值进行提取和存储。输入其中一个人现在的照片,人脸识别结果将可能出现以下三种情况:1)你是你;2)你是你哥哥;3)你是你弟弟。也就是说,依靠特征值无法逆向确定到特定的自然人。因为,人脸识别技术并不是解决你是不是这个人的问题,而是你像不像这个人。人脸识别通过提取不同人脸的特征值进行对比,计算出人脸的相似度。系统根据预设的相似度阀值,来输出符合阀值要求的结果。

2. 无论使用的是传统机器算法,抑或是深度学习算法,人脸识别技术提取的特征值是原始图片的局部信息,无法还原出原始图片。

因此,人脸特征值理论上是符合摘要信息的要求的。同时,人脸经过加工和数字化,特征值一定程度上也达到了匿名化和加密的效果。但是,基于法律的严谨性,我们需要穷尽所有可能的情况。特征值是信息技术的电子化产物,做过技术的人都知道,在电子世界,没有什么是安全的。即使现在安全,随着技术的发展也会变的不安全。由于特征值存储的是图片的特征向量,可以简单理解为是特征点上的像素信息。如果对特征向量进行像素还原,并将像素按照原来的排列顺序恢复。特征值是可以被还原成图片,虽然肯定不是原图,但如果收集的特征点足够多,特征值是能够还原出一定可识别程度的人脸生物信息(如图3)

图3:通过特征值还原人脸生物信息

虽然这些图片不是原图,而且结合上文分析的第一点,特征值无法逆向确定到特定的自然人。我们是否可以就此作出人脸特征值属于摘要信息的结论?但图3所展示的样貌是否可以识别出特定的自然人,每个人的看法都不一样,甚至具体到不同法院或审判人员都可能有不一样的认定结果,而且目前缺乏明确的法条或案例,所以这个结论是存有瑕疵的。如果需要像人脸识别技术给出一个类似相似度的百分比,这个结论的成立可能性是90%,而剩余的10%可能就变成企业在实际运营过程中需要承担的法律风险。

作者:李林兴

审稿:梁艳芬

(文中观点不代表北源律师事务所的观点或法律意见)

 

返回列表
人脸识别系列解读(二)丨人脸识别中关于人脸特征值的技术事实和法律问题
2021-08-06

导读

随着5G时代、人工智能的高速发展,我们的生活越来越便捷,依托于人脸识别技术的“刷脸”成为一种新的生活方式。人脸识别,是利用摄像头等硬件设备采集含有人脸的图像,并在图像中检测和定位到人脸,从人脸中提取出特征信息进行匹配的一种生物识别技术。相比成本高的虹膜识别技术,可复制性的指纹识别技术,人脸识别技术因成本低、效率高的优点,广泛应用在智慧金融、电子支付、高铁机场、安防、智慧门禁和电子政务等不同领域,并催生出如商汤、依图、云从、旷视等AI巨头企业。


一、什么是人脸特征值?

由于计算机是二进制的机器,人脸图像并不能被计算机直接使用和识别,需要将其通过算法进行运算转化为人脸特征值,借助特征值来完成匹配、识别等功能。那人脸特征值是如何从人脸图片中提取的?思考一下,我们是如何识别出不同的人。如果迎面走来一个人,我们首先会关注他的人脸轮廓、眼睛大小、眉毛、嘴巴等特征,大脑接收到这些信息后,在我们记忆中的人脸库进行检索,对比以上特征找到最接近的人脸印象。如果有这个人脸印象,我们就能知道他是谁。如果没有,他就是陌生人。同样,计算机也是遵循这种思路。

早期的人脸识别技术多数采用的是传统机器学习算法,通过提取人脸图片的几何特征、表象特征、纹理特征进行对比得到识别分值,通过对分值的加权计算得到最终识别分值(如图1)。根据识别分值的高低,判断是不是同一个人。

图1:识别分值算法路径

但随着人脸图片的分辨率逐渐增加,和视频、三维图片等复杂场景的出现,传统机器算法出现了性能上的瓶颈。得益于GPU并行计算的大规模普及和深度学习算法的进步,人脸识别技术进入了深度学习时代。深度学习算法是在人脸图片上定义多个特征点,提取出该点的鉴别特征,组成一个多维度的特征向量(也叫特征值),利用卷积神经网络(Convolutional Neural Networks, CNN)构建出高维度的模型。在这个高维度模型中,计算出不同人脸图片的特征值之间的余弦距离,来确定它们的接近程度,从而得到相似度(如图2)。

图2:高维度模型

二、人脸特征值是否属于个人信息?

根据《中华人民共和国民法典》第一千零三十四条和《中华人民共和国网络安全法》第七十六条等法律法规对个人信息的定义,个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。参照《信息安全技术 个人信息安全规范》GB/T 35273—2020(以下简称为《个人信息安全规范》),判定某项信息是否属于个人信息,应考虑以下两条路径:一是识别,即从信息到个人,由信息本身的特殊性识别出特定自然人,个人信息应有助于识别出特定个人;二是关联,即从个人到信息,如已知特定自然人,由该特定自然人在其活动中产生的信息(如个人位置信息、个人通话记录、个人浏览记录等)即为个人信息。符合上述两种情形之一的信息,均应判定为个人信息。

人脸是一个人的生物识别信息,而人脸特征值是从人脸图片中提取的特征信息,本身就一定程度上体现出自然人的特点,如果结合其他信息(例如个人位置信息、个人通话记录、个人浏览记录等)就可以识别到特定自然人,因此人脸特征值属于个人信息。所以对于人脸特征值的使用、共享、转让等处理,均需要参照和遵守个人信息的相关法律法规。

三、人脸特征值是否属于个人生物识别信息的摘要信息?

从上文的人脸识别技术介绍可得知,使用人脸识别技术的企业在实际运营中需要采集人脸图像和利用人脸特征值。而且人脸图像又是用于训练人脸识别模型和算法的最佳素材,存储人脸图像和人脸特征值是行业内普遍的现状。

《个人信息安全规范》的6.3条作出了原则上不应存储原始个人生物识别信息(如样本、图像等),仅存储个人生物识别信息的摘要信息的要求。无独有偶,根据2021年1月1日正式施行的《天津市社会信用条例》第十六条,市场信用信息提供单位不得采集自然人的宗教信仰、血型、疾病和病史、生物识别信息以及法律、行政法规规定禁止采集的其他个人信息,在全国首次以法律形式禁止采集生物识别信息。未来会有多少城市跟进这一趋势并不得知,但可以看到,对于人脸图像这一原始个人生物识别信息的采集和存储会面临越来越多的法律规制。而《个人信息安全规范》虽然不建议存储原始个人生物识别信息,但同时提出了仅存储个人生物识别信息的摘要信息的建议。这就延伸出一个问题,人脸特征值是否属于个人生物识别的摘要信息?相信目前正在使用人脸图像进行AI运算的企业,都会关心这一问题。因为如果人脸特征值属于摘要信息,人脸图像被提取出特征值后即可删除,依靠被存储下来的人脸特征值就可以继续后续的身份识别、验证等业务流程。这样,企业因储存人脸图像导致被法律制裁和业务场景中断的风险,将大大降低。

根据《个人信息安全规范》对个人生物识别信息的摘要信息的定义,摘要信息具有不可逆特点,无法回溯到原始信息。因此,我们需要从两个层面分析和判断人脸特征值是不是摘要信息。

1. 人脸特征值的提取依赖于原始图片,而在图片的形成或拍摄过程中,受图片分辨率,光线,人物表情,姿态等因素影响,导致人脸识别技术提取得到的特征与真人的人脸存在差异,而这差异客观上无法解决。就像我们在日常生活中,也容易认错长相接近的双胞胎。我们可以想象这样的例子,如果人脸识别系统中存在多张长相接近的不同人的照片(例如他们是多胞胎),而这些照片是上周拍摄的,人脸识别技术已经将照片的人脸特征值进行提取和存储。输入其中一个人现在的照片,人脸识别结果将可能出现以下三种情况:1)你是你;2)你是你哥哥;3)你是你弟弟。也就是说,依靠特征值无法逆向确定到特定的自然人。因为,人脸识别技术并不是解决你是不是这个人的问题,而是你像不像这个人。人脸识别通过提取不同人脸的特征值进行对比,计算出人脸的相似度。系统根据预设的相似度阀值,来输出符合阀值要求的结果。

2. 无论使用的是传统机器算法,抑或是深度学习算法,人脸识别技术提取的特征值是原始图片的局部信息,无法还原出原始图片。

因此,人脸特征值理论上是符合摘要信息的要求的。同时,人脸经过加工和数字化,特征值一定程度上也达到了匿名化和加密的效果。但是,基于法律的严谨性,我们需要穷尽所有可能的情况。特征值是信息技术的电子化产物,做过技术的人都知道,在电子世界,没有什么是安全的。即使现在安全,随着技术的发展也会变的不安全。由于特征值存储的是图片的特征向量,可以简单理解为是特征点上的像素信息。如果对特征向量进行像素还原,并将像素按照原来的排列顺序恢复。特征值是可以被还原成图片,虽然肯定不是原图,但如果收集的特征点足够多,特征值是能够还原出一定可识别程度的人脸生物信息(如图3)

图3:通过特征值还原人脸生物信息

虽然这些图片不是原图,而且结合上文分析的第一点,特征值无法逆向确定到特定的自然人。我们是否可以就此作出人脸特征值属于摘要信息的结论?但图3所展示的样貌是否可以识别出特定的自然人,每个人的看法都不一样,甚至具体到不同法院或审判人员都可能有不一样的认定结果,而且目前缺乏明确的法条或案例,所以这个结论是存有瑕疵的。如果需要像人脸识别技术给出一个类似相似度的百分比,这个结论的成立可能性是90%,而剩余的10%可能就变成企业在实际运营过程中需要承担的法律风险。

作者:李林兴

审稿:梁艳芬

(文中观点不代表北源律师事务所的观点或法律意见)