您的位置: 首页 >科技 >

Transgender YouTubers抓住他们的视频来训练面部识别软件

2019-05-22 17:48:34 编辑: 来源:
导读 大约五六年前,Karl Ricanek的一名学生在YouTube上向他展示了一段视频。为了转变性别,这是一个经历激素替代疗法或HRT的人的时间流逝。当

大约五六年前,Karl Ricanek的一名学生在YouTube上向他展示了一段视频。为了转变性别,这是一个经历激素替代疗法或HRT的人的时间流逝。“当时,我们正致力于面部识别,”北卡罗来纳大学威尔明顿分校计算机科学教授Ricanek告诉The Verge。他说他和他的学生总是试图找到打破他们所处理系统的方法,而且这个视频似乎是一个特别棘手的挑战。“我们就像,'哇现在的技术无法识别这个人[在他们过渡后]。”

为了解决这个问题,Ricanek做了所有优秀科学家的工作:他开始收集数据。像所有人工智能系统一样,面部识别软件需要一堆信息才能进行训练,虽然有大量可供使用的大小可用的面部数据库(大小从几千到几百万不等),但前后都没有记录面部。 HRT。因此,Ricanek转向互联网 - 这一决定后来被证明是有争议的。

在YouTube上,他找到了一个宝库。接受HRT的个人经常记录他们的进度并在线发布结果,有时会保留常规日记,有时会制作整个过程的延时视频。“我分享了我的视频,因为我希望其他跨性别人士看到我的过渡,”多年前在YouTube上发布过渡视频的Danielle说。“这些类型的过渡蒙太奇对我有帮助,所以我想向前付钱,”她告诉The Verge。

这些视频也恰好是AI研究人员的黄金,因为每个视频都包含数十种不同的,逼真的照片。正如Ricanek在数据集的网页上写道,他将从视频中编辑:“[它]包括在真实条件下拍摄的每个主题平均278张图像,因此包括姿势,光照,表情和闭塞“。

但问题是:这些视频中的人是否知道或关心他们分享的帮助他人的个人旅程是否被用于改善面部识别软件?

“这怎么合法?”

Adam Harvey是一位艺术家和研究员,他的工作考察了隐私和技术,他通过电子邮件告诉The Verge这种数据抓取“超出常见。”Harvey在研究期间发现了HRT跨性别数据集正在研究这个项目一种AI培训实践。他在Twitter上分享了这一点,反应并不好。“这怎么合法?”一位用户问道。“不行,”另一个说。

当我们联系他时,Ricanek并不知道他的工作正在以这种方式进行讨论。然而,他确实希望澄清有关该研究的一些事项。首先,数据集本身只是一组指向YouTube视频的链接,而不是视频本身; 第二,他从未与任何人分享商业用途(“我们的工作只是为了阐明存在的问题区域。”); 第三,他在三年前就停止了对它的访问。

“这样做的原因是,在目前的气候条件下,提供那些东西感觉有点不舒服,”他告诉The Verge。“出于政治原因,我不再愿意分发链接了。人们可以利用这个来造成伤害,这不是我的意图。“他说他的团队确实试图联系他列出的视频的人,并且”礼貌地“征得他们的同意,但承认如果有人没有回应,他们可能会已被包括在内。

Danielle是数据集中的特色,其过渡图片因此而出现在科学论文中,她说从未接触过她的收录。“我绝不'隐藏'我的身份,”她告诉The Verge使用在线消息服务。“但这感觉就像是对隐私的侵犯。”她说她很高兴知道数据集的使用存在限制(特别是它没有出售给公司),但是说这种生物识别系列“全部”对跨性别社区的各种影响。“

“在'身份科学'工作的人应该理解识别人的意义,特别是那些身份可能使他们成为目标的人(即军队中可能不会出局的人),”她说。“在跨社群中,有一个非常微不足道的人群被YouTube视频或其他内容吓坏了,这些内容可以帮助人们弄清楚如何'发现跨性别者'。”

对于哈维来说,这个故事并不奇怪。“缺乏关于数据收集伦理的公共话语使研究人员能够继续积累来自社交媒体来源的大量生物识别数据,即Flickr和YouTube,”他说。这些图像默认情况下可以获得Creative Commons(CC)许可,允许它们自由下载并用于训练面部识别系统,即使研究是由营利性公司资助的。

与其他数据集相比,Ricanek是一个小鱼。例如,华盛顿大学编制的MegaFace数据集包含大约627,000个人的470万张图像 - 全部来自Flickr用户。该项目的赞助商包括三星,英特尔和谷歌,这些数据本身也被世界各地的研究人员使用,他们的工作几乎肯定会用于付费产品。

哈维说,抛开合法性和同意的问题,“对这些数据集中的实际内容存在”更深层次的道德问题。“他指出,MegaFace中两种最常见的图像类别是”家庭“和”婚礼“。感觉,我们喜欢拍摄比我们所爱的人更多的照片?哈维说,在数据库内部看一看,“无数个人照片显示了人们的家,婚礼,野餐,海滩旅行,自拍,甚至还有儿童的照片。大多数(如果不是全部)这些照片中的人都不知道世界各地的生物识别公司正在为他们的朋友,家人和孩子磨练面部识别算法。“

执法部门和国家安全机构也对这些数据感兴趣。Ricanek的研究部分由FBI和陆军资助(尽管他说跨性别数据集从未与任何政府机构共享,也不是由他们资助)。Ricanek将这项研究称为解决奇幻边境威胁的理由。但是,使用这种研究的系统可能会加剧跨性别者在旅行检查站已经面临的骚扰和羞辱。

“如果恐怖分子明白服用这种激素可以增加他们进入受到人脸识别保护的边界的机会,他们可以做出什么样的伤害?这是我正在调查的问题,“他说。“对于这些视频中可能引起任何人的任何类型的痛苦,我深表歉意。那肯定不是我来自哪里。作为学者,我们看到了巨大的挑战,我们希望在他们身上努力,但在这些挑战背后的是真实的人,他们可能会受到我们无法理解的方式的影响。

哈维说,目前关于这种数据收集的道德规范“存在争议”。这是一个复杂的话题,尽管个人可能会对他们的图像未经许可使用而感到愤怒,但他们几乎无能为力。

在某些情况下存在阻力(例如,当研究人员未经许可从Tinder中搜集40,000个自拍并在线发布数据集时),但在关于采集数据的正确和错误方式的辩论中,最响亮的声音是大公司。这导致了像英国这样的情况,谷歌的人工智能子公司DeepMind 非法达成了160万人的医疗记录。

在某种程度上,我们已经习惯了这笔交易。这是现代互联网的重要优势:您可以提供有关您生活的信息,作为回报,您可以获得免费服务。但是在人工智能时代,随着收集的数据变得越来越个性化 - 不仅仅是你的匿名浏览习惯,而是你,你的家人,你的个人时刻的图片 - 以及它所创造的系统越来越多的控制,也许是时间再一次问自己,我们是否放弃了太多?


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。