您的位置: 首页 >科技 >

人工智能有一个大数据问题以下是解决方法

2020-06-18 16:01:49 编辑: 来源:
导读 毫不夸张地说,人工智能已经遇到了一个大数据问题,而危机现在已经让这个问题变得不可能再被忽视。 对于企业、政府和个人来说,这场全球大流行有效地重新定义了“正常”生活;但是,尽管我们大多数人现在已经适应了这种变化,AI系统却不能这样说,因为它们的预测是建立在过去的样子之上的。 在CogX 2020大会上,英国数学家大卫·巴伯说:“人工智能系统的部署目前是笨拙的。通常,你去那里,收集

毫不夸张地说,人工智能已经遇到了一个大数据问题,而危机现在已经让这个问题变得不可能再被忽视。

对于企业、政府和个人来说,这场全球大流行有效地重新定义了“正常”生活;但是,尽管我们大多数人现在已经适应了这种变化,AI系统却不能这样说,因为它们的预测是建立在过去的样子之上的。

在CogX 2020大会上,英国数学家大卫·巴伯说:“人工智能系统的部署目前是笨拙的。通常,你去那里,收集你的数据集,标记它,培训系统,然后部署它。就是这样——你不必重新访问已部署的系统。但如果环境在变化,这就不好了。”

巴伯指的是监督机器学习,他将其称为当今人工智能的“经典范式”,包括通过实例来教算法。在监督模型中,人工智能系统被输入一个大数据集,这些数据集之前已经被人类标记过,用来训练技术识别模式和做出预测。

例如,您可以训练一种算法来基于个人收入或信用评分自动化银行的贷款决策。如果出现,再加上一套全新的银行模式,人工智能系统很可能无法决定谁能得到这笔钱。

同样,危机爆发几个月后,一位美国研究人员指出,尽管已经向算法提供了所有的训练数据,但算法对于理解疫情的性质或其在全球的传播并没有多大帮助。

这项研究解释说,由于缺乏关于过去的培训数据,人工智能工具产生的大多数预测被发现缺乏可靠性,结果往往偏离了危机的严重性。

与此同时,在healthtech,人工智能健康工具的制造商难以更新自己的算法,原因是缺乏有关该病毒的相关数据,导致许多“症状发现者”(symptom finder)聊天机器人出现了一点问题。

由于来自前covid环境的数据不再与现实世界相匹配,监督算法正在耗尽其预测所依据的例子。更糟糕的是,人工智能系统不会将它们的不确定性告知人类操作员。

巴伯说:“人工智能不会告诉你,它实际上对自己的预测的准确性没有信心,需要人类介入。”“这些系统中有很多不确定因素。因此,当人工智能对自己的决定没有信心时,提醒人类是很重要的。”

这就是巴伯所说的“人工智能同事情境”,在这种情境中,人类和机器将进行互动,以确保空白不会被填补。事实上,它是人工智能中的一种方法,正慢慢成为一种特别有效的方法。

它被称为“主动学习”,包括在人工智能系统和人类操作员之间建立一种“师-学”关系。主动学习不是向算法提供一个巨大的标记数据集,然后让它得出结论——通常是以一种不那么透明的方式——而是让人工智能系统自己做大量的数据标记,而且最重要的是,当它有疑问时提出问题。

这个过程涉及到一个小的人工标记数据池,称为种子,用于训练算法。人工智能系统随后会得到一组更大的未标记数据,算法会根据自己的训练对其进行注释,然后再将这些新标记的数据整合回种子中。

当工具对某个特定的标签没有信心时,它可以以查询的形式向人工操作人员请求帮助。然后,人类专家做出的选择会反馈给系统,以改善整个学习过程。

主动学习的直接吸引力在于训练系统所需的标记数据量要小得多。监督算法,因为它们不能自己学习,所以需要人类提供大量的带标签的例子。这意味着需要为任何给定的数据集手工标记数十亿个数据点,这将是一个漫长而昂贵的过程。

一些平台,如亚马逊的土耳其机器人,甚至专门将遍布全球的大量低成本劳动力连接起来。他们被称为“土耳其人”,每天点击数千张图片,按要求注释数据点,所有这些都将用于训练未来的算法。

另一方面,主动学习只需要标记一个小的数据种子池。事实上,Barber估计该过程所涉及的注释要少十倍。

他不是唯一一个发现这种方法的特殊好处的人。尤其是大型科技公司,它们对减少为自己的算法提供标签数据的数量有着浓厚的兴趣。

Facebook的人工智能部门在开发一种人工智能学习模型和多种应用程序上投入了大量资金,包括识别有害内容。这家科技巨头最近公布的结果显示,其人工智能团队使用一种师生结合的方法,成功地训练了一种基于10亿张未标记图像的图像分类算法,使用的是“相对较小的”标记数据集。

但这不仅仅是关于减少数据标记的过程:主动学习也比监督学习更有效。当它面对不确定的数据时,能够向人类请教如何关注,这意味着一个“活跃的”人工智能系统不仅能对未知做出反应,还能从中学习。

在内容审核的情况下,一个“主动”算法会做出更明智的决定,因为它会越来越多地学会发现越来越多的微妙形式的内容违规。一个“活跃的”人工智能系统在自然语言处理或医学成像方面也会非常高效。

Barber补充说,该技术的一个高调应用是在无人驾驶汽车上,在无人驾驶汽车上,视频仍然需要被分割成部分,并标记为“行人”、“汽车”、“树”和其他物体,汽车需要识别。注释数以百万计的视频既费时又昂贵;另一方面,让算法学习和提问可以显著加快这一过程。

而且,当全球大流行袭来时,“活跃的”人工智能系统将能够实时整合新的数据,以及一些人工输入,然后调整它们的预测——而不是等待大型数据集被人工注释以供训练。

Barber对ZDNet表示:“如果你正在使用收集大量数据、然后训练深度学习模型的传统方法开发AI,那么就只能这么快了。”“在传统模式下,不到几个月就能有一款新模式投入生产已经很幸运了。但在主动学习的情况下,这最多只需要几天时间。”

这位数学家与人共同创立了Re:infer公司,该公司利用主动学习来帮助企业更好地理解和自动处理每天从供应商那里收到的电子邮件、电话和聊天。

传统上,为这一特定任务构建算法,需要从给定企业收到的数千条客户信息中手动标记每句话,然后将其作为训练输入人工智能系统。

然而,使用主动学习,算法可以快速从基础数据集中学习,并且只向员工展示它不确定的句子。根据Barber的说法,该方法将整个流程的估值时间提高了10到100倍。

见:人工智能在诊断中遇到了一个大数据问题

在与Barber举行的同一个会议上,伦敦大学学院计算机科学教授Emine Yilmaz同意主动学习具有很大的潜力。她表示:“未来几年,我们的目标是建立一种人工智能向我们学习的模式。”

“一个系统应该能够说,它对一个给定的分类是不确定的,它有困难。它应该能够直接向人类提问,就像孩子学习一样,”她补充道。

人类与人工智能之间的互动达到了新的水平,这很可能有利于这种算法:耶尔马兹认为,这种方法可能会克服一些员工对在工作场所使用这种技术的恐惧。在这种情况下,主动人工智能可以提供一种更温和的选择,让算法充当合作者,而不是替代者。

尽管这个算法同事非常聪明,但它仍然不时地需要人类的帮助。不管这听起来是不是一种自然的工作关系,“人在回路中”的概念无疑似乎是对人工智能大数据问题的一种改进,而且可能是一种解决方案。


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。