安全地发现潜在药物的神经网络可以鼓励大规模汇集敏感数据

2019-06-10 11:01:26 编辑：来源：

导读麻省理工学院的研究人员开发了一种加密系统，可以帮助神经网络在大量药理数据集中识别有希望的候选药物，同时保持数据的私密性。如此大规模

麻省理工学院的研究人员开发了一种加密系统，可以帮助神经网络在大量药理数据集中识别有希望的候选药物，同时保持数据的私密性。如此大规模的安全计算可以为预测药物发现提供广泛的敏感药理学数据汇集。

药物 - 靶标相互作用(DTI)数据集显示候选化合物是否作用于靶蛋白，对于帮助研究人员开发新药物至关重要。可以训练模型来处理已知DTI的数据集，然后使用该信息找到新的候选药物。

近年来，制药公司，大学和其他实体已经开放将药理学数据汇集到更大的数据库中，这可以大大改善这些模型的培训。然而，由于知识产权问题和其他隐私问题，这些数据集的范围仍然有限。用于保护数据的密码学方法是如此计算密集的，它们不能很好地扩展到超过例如成千上万的DTI的数据集，这些数据集相对较小。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员在“ 科学”杂志上发表的一篇论文中描述了一个神经网络，该神经网络在超过一百万个DTI的数据集上进行了安全训练和测试。该网络利用现代加密工具和优化技术将输入数据保密，同时大规模快速有效地运行。

该团队的实验表明，网络比现有方法更快，更准确; 它可以在几天内处理大量数据集，而其他加密框架则需要数月。此外，该网络确定了几种新的相互作用，包括白血病药物伊马替尼和一种与癌症相关的酶ErbB4突变之间的相互作用 - 这可能具有临床意义。

“人们意识到他们需要汇集他们的数据，以大大加快药物发现过程，并使我们共同在解决重要的人类疾病，如癌症或糖尿病方面取得科学进步。但他们没有好的方法， “相应的作者Bonnie Berger，西蒙斯数学教授和CSAIL的首席研究员说。“通过这项工作，我们为这些实体提供了一种方法，可以有效地集中和分析他们的数据。”

加入Berger的是共同作者Brian Hie和Hyunghoon Cho，他们都是电气工程和计算机科学的研究生以及CSAIL计算和生物学研究组的研究人员。

“秘密共享”数据

这篇新论文建立在研究人员以前在基因组研究中保护患者机密性的工作的基础上，这些研究发现了特定遗传变异与疾病发病率之间的联系。基因组数据可能会泄露个人信息，因此患者可能不愿意参加研究。在那项工作中，Berger，Cho和前斯坦福大学博士。学生开发了一种基于密码学框架的协议，称为“秘密共享”，可以安全有效地分析一百万个基因组的数据集。相比之下，现有的提案只能处理几千个基因组。

秘密共享用于多方计算，其中敏感数据被划分为多个服务器之间的单独“共享”。在整个计算过程中，每一方总是只拥有其数据的份额，这看起来是完全随机的。但是，总的来说，服务器仍然可以在底层私有数据上进行通信和执行有用的操作。在计算结束时，当需要结果时，各方合并其份额以揭示结果。

“我们以前的工作为基础，将秘密共享应用于药理学合作的问题，但它并不是现成的，”Berger说。

一项关键创新是减少培训和测试所需的计算量。现有的预测药物发现模型将DTI的化学和蛋白质结构表示为图形或矩阵。然而，这些方法与数据集中的DTI数量成二次方或平方。基本上，随着数据集的大小增加，处理这些表示变得极其计算密集。“虽然这对于处理原始数据可能没什么问题，但如果你在安全计算中尝试这样做，那就不可行，”Hie说。

研究人员培训了一种依赖于线性计算的神经网络，该计算可以更有效地扩展数据。“我们绝对需要可扩展性，因为我们正试图提供一种将数据汇集到更大的数据集中的方法，”Cho说。

研究人员在STITCH数据集上训练了一个神经网络，该数据集拥有150万个DTI，使其成为同类中最大的公开数据集。在训练中，网络将每种药物化合物和蛋白质结构编码为简单的载体表示。这基本上将复杂的结构浓缩为计算机可以容易地处理的1和0。从这些向量，网络然后学习交互和非交互的模式。通过联合新的化合物和蛋白质结构，网络然后预测它们是否会相互作用。

该网络还具有针对效率和安全性进行了优化的架构。神经网络的每一层都需要一些激活函数来确定如何将信息发送到下一层。在他们的网络中，研究人员使用了一种称为整流线性单元(ReLU)的高效激活功能。此功能仅需要交互的单个安全数值比较，以确定是否将数据发送(1)或不发送(0)到下一层，同时也从不透露任何有关实际数据的信息。与更复杂的功能相比，此操作在安全计算中更有效，因此在确保数据隐私的同时减少了计算负担。

“重要的原因是我们希望在秘密共享框架内做到这一点......而且我们不想增加计算开销，”Berger说。最后，“没有显示模型的参数，所有输入数据 - 药物，目标和交互 - 都保密。”

寻找互动

研究人员将他们的网络与来自DrugBank的一部分已知DTI的几个最先进的明文(未加密)模型进行了对比，这是一个包含大约2,000个DTI的流行数据集。除了保持数据私密性外，研究人员的网络在预测准确性方面优于所有模型。只有两个基线模型可以合理地扩展到STITCH数据集，研究人员的模型实现了几乎两倍的模型精度。

研究人员还在STITCH中测试了没有列出相互作用的药物 - 靶标对，并发现了一些临床确定的药物相互作用，这些相互作用没有在数据库中列出但应该是。在该论文中，研究人员列出了最强烈的预测，包括：屈洛昔芬和雌激素受体，它们作为乳腺癌的治疗方法达到了III期临床试验; 和西奥骨化醇和维生素D受体治疗其他癌症。Cho和Hie通过合同研究组织独立验证了得分最高的小说互动。

接下来，研究人员正在与合作伙伴一起在现实环境中建立他们的协作管道。“我们有兴趣将安全计算环境整合在一起，因此我们可以使用真实数据运行我们的安全协议，”Cho说。

标签：神经网络