您的位置: 首页 >要闻 >

减少信用卡欺诈检测中的误报

2019-06-10 17:26:35 编辑: 来源:
导读 您是否曾在新的商店或地点使用过您的信用卡才能拒绝?由于您收取的金额高于平时,因此销售是否被阻止?在合法交易中,消费者的信用卡经常出人

您是否曾在新的商店或地点使用过您的信用卡才能拒绝?由于您收取的金额高于平时,因此销售是否被阻止?

在合法交易中,消费者的信用卡经常出人意料地被拒绝。一个原因是消费者银行使用的欺诈检测技术错误地将销售标记为可疑。现在,麻省理工学院的研究人员采用了一种新的机器学习技术,大大减少了这些误报,为银行节省了资金,减轻了客户的挫败感。

使用机器学习来检测财务欺诈可以追溯到20世纪90年代初,并且多年来一直在发展。研究人员训练模型,从过去的交易中提取行为模式,称为“ 特征 ”,表示欺诈行为。当您刷卡时,卡会对模型进行 ping操作,如果功能与欺诈行为相符,则销售会被阻止。

然而,在幕后,数据科学家必须想到这些功能,这些功能主要集中在数量和位置的一揽子规则上。如果任何给定的客户在一次购买时花费超过2,000美元,或者在同一天进行大量购买,则可能会被标记。但由于消费者的消费习惯各不相同,即使在个人账户中,这些模型有时也是不准确的:Javelin Strategy and Research 2015年的一份报告估计,只有五分之一的欺诈预测是正确的,错误可能导致银行损失1180亿美元的收入,拒绝客户然后不使用该信用卡。

麻省理工学院的研究人员已经开发出一种“自动化特征工程”方法,可以为每个单独的交易提取200多个详细功能 - 例如,如果用户在购买期间在场,以及某些供应商在特定日期花费的平均金额。通过这样做,它可以更好地确定特定持卡人的消费习惯何时偏离常态。

通过对来自大型银行的180万笔交易的数据集进行测试,该模型比传统模型减少了54%的误报预测,研究人员估计可以为银行节省190,000欧元(约合220,000美元)的收入损失。

麻省理工学院信息与决策系统实验室(LIDS)的首席研究科学家Kalyan Veeramachaneni说:“这个行业面临的巨大挑战是误报。”该论文的共同作者是该论文的共同作者,该论文在最近的欧洲会议上发表。用于机器学习。“我们可以说特征工程和[减少]误报之间存在直接联系。这对提高这些机器学习模型的准确性是最有影响力的。”

论文的共同作者是:主要作者Roy Wedge,前LIDS数据实验室研究员; James Max Kanter '15,SM '15; 和Banco Bilbao Vizcaya Argentaria的Santiago Moral Rubio和Sergio Iglesias Perez。

提取“深层”功能

三年前,Veeramachaneni和Kanter开发了深度特征合成(DFS),这是一种从任何数据中提取高度详细特征的自动化方法,并决定将其应用于金融交易。

企业有时会主持竞争,提供有限的数据集以及欺诈等预测问题。数据科学家开发预测模型,现金奖励最精确的模型。研究人员参加了一次这样的比赛,并获得了DFS的最高分。

然而,他们意识到如果对几种原始数据源进行培训,该方法可以充分发挥其潜力。Veeramachaneni说:“如果你看一下公司发布的数据,它只是它们实际拥有的一小部分。” “我们的问题是,'我们如何将这种方法用于实际业务?'”

在国防高级研究计划局的数据驱动的模型发现计划的支持下,坎特和他的团队在FeatureLabs上进行商业化,该技术开发了一个用于自动特征提取的开源库,名为Featuretools,用于本研究。

研究人员获得了一家由国际银行提供的三年数据集,其中包括有关交易金额,时间,地点,供应商类型和所用终端的详细信息。它包含来自约700万张个人卡的大约9亿笔交易。在这些交易中,大约122,000个被确认为欺诈。研究人员在该数据的子集上训练和测试了他们的模型。

在培训中,该模型寻找交易模式以及与欺诈案件相匹配的卡片。然后,它会自动将它找到的所有不同变量组合成“深层”功能,从而为每个事务提供高度详细的视图。从数据集中,DFS模型为每个事务提取了237个特征。Veeramachaneni说,这些代表了持卡人的高度定制变量。“说,周五,顾客通常会在星巴克花5美元或15美元,”他说。“这个变量看起来像'星期五早上在咖啡店花了多少钱?'”

然后,它为该功能帐户创建一个if / then决策树,该功能可以指向欺诈,也可以不指向欺诈。当通过决策树运行新事务时,模型会实时决定交易是否是欺诈性的。

与银行使用的传统模型相比,DFS模型产生了大约133,000个误报,而289,000个误报,大约减少了54%。研究人员估计,除了检测到的漏报数量较少 - 未检测到的实际欺诈行为 - 可以为银行节省大约19万欧元。

堆叠基元

模型的主干包括创造性地堆叠的“基元”,简单的函数,它们接受两个输入并提供输出。例如,计算两个数的平均值是一个基元。这可以与查看两个事务的时间戳的原语组合,以获得事务之间的平均时间。堆叠另一个原语来计算这些事务中两个地址之间的距离,给出两个特定位置的两次购买之间的平均时间。另一个原语可以确定购买是在工作日还是周末进行,依此类推。

“一旦我们拥有这些基元,就不会阻止我们堆叠它们......你开始看到之前没有想到的这些有趣的变量。如果你深入研究算法,那么基元是秘密的,”Veeramachaneni说。

Veeramachaneni指出,模型生成的一个重要特征是计算这两个位置之间的距离,以及它们是亲自发生还是远程发生。如果有人在Stata中心亲自购买东西,半小时后,在200英里以外的地方购买东西,那么欺诈的概率很高。但如果通过手机进行一次购买,则欺诈概率会下降。


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。