卷积网络用于对齐和预测情绪注释

2022-08-03 13:08:40 编辑：利灵凤来源：

导读耶鲁研究人员报告说，机器学习技术可以比传统方法更好地预测接受经皮冠状动脉介入治疗(PCI)的患者的出血风险。研究小组使用机器学习分析...

耶鲁研究人员报告说，机器学习技术可以比传统方法更好地预测接受经皮冠状动脉介入治疗(PCI)的患者的出血风险。

研究小组使用机器学习分析了2009年至2015年心脏病学会(ACC)心血管数据登记处(NCDR)的数据，机器学习是人工智能的一个分支，能够通过推断数据模式来执行任务。该数据库包括在各地的医院进行的300多万个程序。该团队发现，机器学习分析改善了PCI术后出血风险的预测(通常用于打开因斑块积聚而缩小的血管)，这可以更好地为患者和医生的决策提供信息。

“我们发现机器学习可能使我们能够比传统方法更好地提高我们预测风险的能力，”耶鲁大学心脏病专家兼耶鲁纽黑文医院成果研究与评估中心(CORE)主任Harlan Krumholz博士说。“重要的是，关键在于如何在分析开始之前处理有关患者的信息。未来这些技术将使我们能够在更大程度上个性化估计。”

该团队包括临床医生，临床科学家和数据科学家。该研究是首批将机器学习应用于ACC大规模注册的研究之一。CORE是心血管计算健康研究所ACC的合作伙伴，该项目是该合作的首批产品之一。

能够识别和预测人类情感的机器学习模型在过去几年中变得越来越流行。然而，为了使大多数这些技术表现良好，用于训练它们的数据首先由人类受试者注释。此外，情绪会随着时间的推移而不断变化，这使得视频或录音的注释特别具有挑战性，通常会导致标签和录音之间出现差异。

为了解决这一局限，密歇根大学的研究人员最近开发了一种新的卷积神经网络，可以同时以端到端的方式对齐和预测情绪注释。他们在IEEE Transactions on Affective Computing上发表的一篇论文中介绍了他们的技术，称为多延迟同步(MDS)网络。

“情绪在时间上不断变化;它在我们的谈话中消退和流动”Emily Mower Provost，开展这项研究的研究人员之一告诉TechXplore。“在工程学中，我们经常使用情感的连续描述来衡量情绪的变化。然后我们的目标就是从言语中预测这些连续的测量。但是有一个问题。使用连续情感描述的最大挑战之一是它要求我们的标签在时间上不断变化。这是由人类注释器团队完成的。但是，人们不是机器。“

正如Mower Provost接着解释的那样，人类注释者有时可以更加适应特定的情感线索(例如，笑声)，但却忽略了其他线索背后的含义(例如，愤怒的叹息)。除此之外，人类可能需要一些时间来处理录音，因此，他们对情绪线索的反应有时会被延迟。因此，连续情绪标签可能会出现很多变化，有时会与数据中的语音不对齐。

在他们的研究中，Mower Provost和她的同事直接解决了这些挑战，重点关注两种连续的情绪测量：积极性(效价)和能量(激活/唤醒)。他们引入了多延迟同步网络，这是一种处理语音和连续注释之间错位的新方法，它对不同类型的声学线索做出不同反应。

“情绪的时间连续维度描述(例如，觉醒，效价)提供了关于短时间变化和情绪表达的长期趋势的详细信息，”参与该研究的另一位研究员Soheil Khorram告诉TechXplore。“我们研究的主要目标是开发一种能够从语音信号中估计时间连续的维度情感的自动情绪识别系统。该系统可以在不同的领域包括许多实际应用，包括人机交互，电子学习，市场营销，医疗保健，和法律。“

由Mower Provost，Khorram及其同事开发的卷积网络有两个关键部分，一个用于情绪预测，一个用于对齐。情绪预测组件是训练用于识别声学特征和情绪标签之间的关系的常见卷积体系结构。

另一方面，对准组件是由研究人员引入的新层(即延迟同步层)，其将可学习的时移应用于声学信号。研究人员通过合并这些层中的几个来补偿延迟的变化。

“开发用于从语音中预测时间连续情绪标签的自动系统的一个重要挑战是这些标签通常与输入语音不同步，”Khorram解释说。“这主要是由于反应时间引起的延迟，这是人类评估所固有的。与其他方法相比，我们的卷积神经网络能够以端到端的方式同时对齐和预测标签。同步网络利用现代深度学习架构中的传统信号处理概念(即同步过滤)来处理反应延迟问题。“

研究人员使用两个公开可用的数据集，即RECOLA和SEWA数据集，在一系列实验中评估了他们的技术。他们发现在训练情绪识别模型时补偿注释者的反应延迟导致模型的情绪识别准确性得到显着改善。

他们还观察到，在定义连续情感标签时，注释器的反应延迟通常不超过7.5秒。最后，他们的研究结果表明，与其他情绪线索相比，包含笑声的词性通常需要较小的延迟成分。换句话说，注释者通常更容易在包括笑声的语音段中定义情感标签。

“情感无处不在，它是我们沟通的核心，”Mower Provost说。“我们正在建立强大而通用的情感识别系统，以便人们可以轻松访问和使用这些信息。这一目标的一部分是通过创建能够有效使用大型外部数据源的算法来实现的，无论是否标记，以及通过有效地建模自然动态是我们情感交流的一部分。另一部分是通过理解标签本身固有的所有复杂性来实现的。“

虽然Mower Provost，Khorram及其同事将他们的技术应用于情感识别任务，但它也可用于增强其他输入和输出不完全一致的机器学习应用。在他们未来的工作中，研究人员计划继续研究人类注释器产生的情感标签可以有效地整合到数据中的方式。

“我们使用同步滤波器来逼近Dirac delta函数并补偿延迟。但是，也可以使用其他函数，如高斯和三角函数，而不是同步内核，”Khorram说。“我们未来的工作将探索使用可以逼近Dirac delta函数的不同类型的内核的效果。此外，在本文中我们专注于预测连续情绪注释的语音模态，而提出的多延迟同步网络是合理的其他输入模式的建模技术。未来的另一个计划是评估所提出的网络相对于其他生理和行为模式的表现，例如：视频，肢体语言和脑电图。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！