人工智能无法精准读取人脸表情(下)

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:人工智能读取人脸表情,似乎是众多科技公司都在尝试的新业态。这一市场也在不断增长。一些人认为,情绪检测自动化系统,不仅能更好地发现人类真实情绪,而且还能协调人们内心的感受。但也有许多人担心,这项技术存在很多缺陷,其应用过程甚至会导致新的风险。这篇文章来自编译,作者认为,人工智能根本无法精准读取人脸表情。这是文章的下篇,文章在探讨情绪识别在人工智能行业发挥的作用的同时,也指出了由此而产生的一系列问题。

推荐阅读:人工智能做无法精准读取人脸表情(上)

图片来源:openpr

在西方文化中,面相学的发展在18世纪和19世纪达到了高潮。当时,面相学被视为解剖学的一部分。这一传统中的一个关键人物是瑞士牧师约翰·卡斯帕·拉瓦特(Johann Kaspar Lavater),著有《面相学短篇集》(Essays on Physiognomy)一书。

拉瓦特采用了面相学的方法,并将其与当时最新的科学知识相结合。他认为,骨骼结构是外貌和性格类型之间的潜在联系。如果面部表情是短暂存在的,那么头骨应该可以为面相学有关推断提供更可靠的材料。

在种族科学中,头骨测量是一种相对流行的技术,被用来支持民族主义、白人至上主义和仇外心理。在整个19世纪中,弗朗茨·约瑟夫·高尔(Franz Joseph Gall)、约翰·加斯帕·斯柏兹姆(Johann Gaspar Spurzheim)等颅相学家以及科学犯罪学专家切萨雷·龙勃罗梭(Cesare Lombroso)都对这种研究方法展开了详尽的阐述,这些研究也导致这些学者声名狼藉。

然而,首先公开尝试将摄影和其他技术手段应用于人脸研究的,则是法国神经学家杜彻尼·博洛尼(DuchennedeBoulogne),他被埃克曼誉为“极具天赋的观察者”。

其著作的《人体面相机制》(Mécanisme de la physionomie humaine)一书,为后来达尔文和埃克曼的研究都奠定了重要的基础。在这本书中,博洛尼将过去面相学和颅相学的观点与更现代的生理学和心理学有关研究联系在一起。他并不认可之前有关面部特征的模糊断言,而是通过更深入的研究,去探索面部表情和内心精神和情感状态之间的联系。

博洛尼在巴黎的一家精神病院La Salpetrière Hospital工作,那里收容了多达5000名患有各种精神疾病和神经系统疾病的患者。博洛尼会将其中一部分患者当作被试对象,让他们参与到令人痛苦的实验当中。长久以来,医学和技术实验通常都会将最脆弱的人或不懂得拒绝的人当作被试对象,这也是传统的一部分。

在科学界鲜为人知的博洛尼,决定开发一种电击技术,来刺激被试对象面部的肌肉运动。他的目标是建立对脸部的更完整解剖和生理学认识。

通过这些方法,博洛尼希望将全新的心理科学与之前的面相特征联系起来。他借助了最新的摄影技术,比如可以将曝光时间大幅减少的湿版火棉胶摄影,从而能通过照片捕捉那些转瞬即逝的肌肉运动和面部表情。

即使在这些早期研究阶段,捕捉到的面部表情也从来不是最自然的状态,也不是社会中出现的人类表情,而是通过对肌肉的粗暴电击而模拟的状态。不管怎么说,博洛尼都相信,借助摄影和其他技术系统,有助于让研究变得更加客观和有说服力,因此也更适合科学研究。

下面是一些选自《人体面相机制》(来自美国国家医学图书馆)的照片:

在博洛尼的影响下,埃克曼也把摄影技术作为其实验过程中的核心。他认为,由于许多面部表情都是在人类无意识下出现的,因此,慢动作拍摄法对他的研究至关重要。其目的是寻找所谓的微表情,即面部细微的肌肉运动。

在早期研究中,埃克曼的其中一个计划是,编写一个可以检测和分析面部表情的系统。1971年,他与几位研究人员共同合作发表了一篇研究报告,并在报告中首次提出了“面部表情评分方法(FAST)”这一概念。

在借助于照片的基础上,埃克曼主要通过自己的直觉,在FAST方法中使用了六种基本的情感类型。然而,这一方法很快就出现了问题。有几位研究人员发现,有些面部表情并不在埃克曼使用的情感类型范畴内。

于是,埃克曼决定,在下一个实验中,借助测量工具来聚焦于面部肌肉组织,这与博洛尼当初的电击研究相呼应。

埃克曼确定了面部大约40种不同的肌肉收缩状态,并将每个面部表情的基本组成部分称为“动作单元”。经过初步测试和验证,埃克曼和另一位心理学家华莱士·弗里森(Wallace Friesen)于1978年在一篇研究报告中又提出了“面部动作编码系统(FACS)”。时至今日,其更新版本也一直在广泛使用。

尽管FACS取得了较大的成功,但这一方法却需要大量的人力。埃克曼提到,平均而言,通常需要花75至100个小时来训练人们使用FACS方法。此外,单单完成一分钟的面部影片片段的评分,就需要一个小时。这一挑战,也恰恰为新兴的计算机视觉领域提供了发展机遇。

随着计算机在情感识别方面的应用逐渐普及,研究人员也认识到,需要收集标准化的图像来进行实验。

1992年,在美国国家科学基金会(National Science Foundation)的一篇报告中,埃克曼和另一位作者建议道,“建立一个由不同面部研究团队共享的、可随时访问的多媒体数据库,将是解决面部表情理解问题的重要资源”。

不到一年,美国国防部就开始资助一项收集面部照片的项目。在该世纪末,机器学习研究人员已经开始收集、标记并公开分享相应数据集,这些数据集也推动了当今大部分机器学习研究的发展。

此外,学术实验室和有关公司也在同时开展有关项目,创建了几十个照片数据库。例如,瑞典某实验室的研究人员创建了KDEF数据集。该数据集收集了包括喜悦、愤怒、厌恶、悲伤、惊讶和恐惧等六种表情的图片。

当你查看这些数据集照片时,你很容易获得一种看默剧的感受:从这些照片中,你可以轻易地发现被采集者面部令人难以置信的惊喜,或者极大的快乐,或者使人吓得发呆的恐惧。总之,这些被采集者所表露出的情绪,完全是能够实现机器识别的情绪。

Cohn-Kanade数据集的照片示例:喜悦,愤怒,厌恶,悲伤,惊讶和恐惧。图片来源:Jeffrey Cohn

随着这一领域在规模和复杂程度方面的增长,用于情感识别的照片类型也在不断增加。研究人员开始使用FACS系统来标记数据,这些数据并不是来自于刻意摆出的表情,更是自然流露出的面部表情,有的甚至是在实验室条件之外收集的。

埃克曼的工作产生了深远而广泛的影响。《纽约时报》(The New York Times)将埃克曼誉为“世界上最著名的面相学家”,《时代周刊》(Time)也将他评为全球最有影响力的100人之一。

他的思想成为了流行文化的一部分,甚至被写入了马尔科姆·格拉德威尔(Malcolm Gladwell)著作的畅销书《眨眼之间》(Blink),以及热播美剧《别对我说谎》(Lie to Me)。埃克曼还是《别对我撒谎》一剧的主角顾问,剧中主角很显然也是以他为原型刻画出来的。

埃克曼的生意也可谓是蒸蒸日上。他把“欺骗检测”这项技术出售给了包括美国运输安全管理局(Transportation Security Administration)等机构,TSA还借助这项技术,开发了“旅客观测筛选技术(SPOT)”项目。

自911恐怖袭击事件以来,SPOT一直被用于监测乘机旅客的面部表情,以“自动化”检测恐怖分子。该系统采用了94项标准,据称这些标准都是有关压力、恐惧或欺骗的迹象。

不过,在系统应用过程中,必然会出现一部分群体被区别对待的情况。任何有压力的人,或者在被问话时感到不舒服的人,或者与警察或边境保护工作人员产生过不友好经历的人,都可能会被系统标注出来。这就形成了一种“种族归纳”。

由于存在种族偏见,并缺乏科学研究方法,SPOT项目也遭到了美国国会下属机构美国政府问责局(Government Accountability Office,GAO)和有关公民自由团体的强烈谴责与批评。尽管耗资近九亿美元,但并没有直接证明表面这套系统取得了成功。

随着埃克曼名声远扬,对其研究的怀疑和批评也随之而来。早期的批判家有文化人类学家玛格丽特·米德(Margaret Mead)。她在20世纪60年代末就情绪的普遍性问题与埃克曼展开了激烈的争论。

随后几十年,来自不同领域的科学家也都加入了这一批判队伍。近年来,心理学家詹姆斯·拉塞尔(James Russell)和何塞·米格尔·费南迪斯·多尔斯(José-Miguel Fernández-Dols)通过研究发现,情感研究这门科学最基本的方面仍然存在许多不确定性因素。

众多批判者中,最重要的可能是科学史学家鲁斯·莱伊(Ruth Leys),她从埃克曼的研究方法中发现了一个核心问题。

她在其著作的《情感的演化》(The Ascent of Affect)一书中写道:“埃克曼所使用的刻意摆出表情或非自然流露表情照片,表达的是不受文化影响的一系列基本情感状态。”随后,不同背景的人们会给这些照片分类标注,以证明面部表情在不同背景人群中的共通性。

心理学家、神经科学家丽莎·费尔德曼·巴雷特(Lisa Feldman Barrett)直言不讳地指出:“科技公司可以说任何他们想说的,但数据却是明确的。他们可以检测出皱眉头,但这与检测到愤怒情绪完全是两码事。”

更令人不安的是,直到今天,在情感研究领域,针对“到底什么是情绪?”这一问题,研究人员都没有达成共识。

什么是情绪?人类情绪是如何形成的?又是如何表达出来的?情绪在心理上或者神经生物学上能起到什么作用?情绪与刺激物之前又有什么关系?这些都是尚未解决并达成共识的问题。即便有众多的批判声音,为什么从一个人脸上“解读情绪”的方法仍然存在?

图片来源:nordicapis

自20世纪60年代以来,在美国国防部大量资金的推动下,已经开发出许多系统,在测量面部运动方面也越来越精准。由于埃克曼的理论可以实现大规模自动化,因此似乎也是计算机视觉的理想选择。

基于埃克曼理论与方法有效性的认可,许多机构和企业也都纷纷投资于这一领域。如果人们认识到情绪不容易分类,或者它们不可能可靠地根据面部表情来检测的话,那这只会对一个不断增长的领域产生巨大的破坏作用。

许多机器学习论文都在直接引用埃克曼的理论,在这些作者眼中,好像这些问题已经解决了一样。事实上,有关背景、条件、关系和文化等复杂问题往往都被忽略了。埃克曼自己也说过,他也对其理论的商业化方式表达出了担忧。然而,当他尝试写信给科技公司,请求他们提供证据来证明其开发的情绪识别程序有效性时,他没有收到任何答复。

因此,与其试图搭建更多识别并将面部表情分类的系统,我们不如质疑这些分类的源头,以及其产生的社会和政治影响。

例如,这些系统在标记妇女(特别是黑人妇女)的言语情感方面,就与标记男性言语情感存在不同。据马里兰大学(University of Maryland)的一项研究发现,一些面部识别软件在解读黑人面部表情时,会反馈出更多的负面情绪,经常都会将黑人面部表情解读为具有愤怒或轻蔑倾向。

这就是情感识别自动化的危险所在。几十年来,科学界一直围绕根据面部来推断情绪状态这一问题而争论不休,这也凸显出一个核心问题,即一刀切的“情感检测”并不是正确的方法。情绪是复杂的,它们的发展与变化与我们的文化和历史有关,这些内容目前都还属于人工智能框架之外。

遗憾的是,求职者已经因为其面部表情或声调与其他员工不匹配而受到不公平对待。在学校,学生也会因为表情看起来很愤怒而遭到特别对待。在商场,顾客可能会因为其面部表情而被质疑为偷窃者。

这些系统不仅在技术上有缺陷,而且整套技术的核心方法论都存在问题。但最后,却有人会因为这些系统的缺陷而遭到不平等对待。

埃克曼早期实验中提出的狭隘情绪分类,如今正编写进机器学习系统,成为极其复杂的情绪体验的“代理人”。

译者:俊一