通常用于训练AI系统检测表情的数据集偏向某些人口群体

2020-07-28 08:34:58 编辑：来源：国际品牌资讯

导读研究人员声称，通常用于训练AI系统以检测幸福，愤怒和惊奇等表情的数据集偏向某些人口群体。在Arxiv org上发表的预印本研究中，与剑桥大学

研究人员声称，通常用于训练AI系统以检测幸福，愤怒和惊奇等表情的数据集偏向某些人口群体。在Arxiv.org上发表的预印本研究中，与剑桥大学和中东技术大学有关联的合著者在两个开源语料库中发现了偏斜的证据：真实世界的面部表情数据库(RAF-DB)和CelebA。

机器学习算法之所以变得偏颇，部分原因在于它们提供了训练样本，这些样本优化了针对多数人群的目标。除非明确修改，否则它们在少数群体(即以较少的样本代表的人群)中表现较差。在面部表情分类之类的领域中，很难补偿偏斜，因为训练集很少包含有关种族，性别和年龄等属性的信息。但是，即使是那些做提供的属性通常分布不均。

RAF-DB包含来自互联网的数以万计的图像，包括面部表情和属性注释，而CelebA拥有202,599张图像，包含10,177人的40种属性注释。为了确定两者之间存在偏差的程度，研究人员对随机子集进行了采样，并对齐并裁剪了图像，以使面部在方向上保持一致。然后，他们使用分类器来衡量准确性(模型得到的预测分数的正确性)和公平性(分类器是否对性别，年龄和种族等属性公平)，即分类器应在整个过程中提供相似的结果不同的人口群体。

研究人员报告说，在RAF-DB的图像子集中，绝大多数受试者-77.4%-是白人，而15.5%是亚洲人，只有7.1%是非裔美国人。该子集也显示出性别偏斜，女性为56.3%，男性为43.7%。准确的范围从少数族裔的低(亚裔女性为59.1%，非裔女性为61.6%)到多数(白种人为65.3%)不等，在公平性指标上，研究人员发现其种族低(88.1%)，但总体性别比例较高(97.3%)。

在CelebA子集上，研究人员训练了一个更简单的分类器，以区分两类人：微笑的人和不微笑的人。他们指出，该数据集存在较大的偏差，只有38.6%的不笑男只有61.4%的不笑男。研究人员称，分类器对年轻女性的准确率为93.7%，但对老年男性(90.7%)和女性(92.1%)的准确性较低，尽管这在统计学上不显着，但表明分布不均。

迄今为止，存在着各种各样的面部表情识别任务数据集。然而，实际上，这些数据集都没有考虑到包含在敏感属性(例如性别，年龄和种族)方面在整个人群中均匀分布的图像和视频而获得的，”合著者写道。

许多人认为，面部表情数据集的明显偏见凸显了监管的必要性。至少有一家专门从事情感识别的AI初创公司Emteq呼吁制定法律以防止滥用技术。心理科学协会(Association for Psychological Science)委托进行的一项研究指出，由于情感是以多种方式表达的，因此很难从表情中推断出人们的感受。纽约大学研究机构AI Now Institute则在研究AI对社会的影响。该机构在

标签： AI系统