您的位置: 首页 >科技 >

机器学习系统在材料的配方中找到模式 即使缺乏训练数据

2019-06-21 16:48:47 编辑: 来源:
导读 上个月,麻省理工学院的三位材料科学家及其同事发表了一篇论文,描述了一种新的人工智能系统,该系统可以通过科学论文并提取配方来生产特定

上个月,麻省理工学院的三位材料科学家及其同事发表了一篇论文,描述了一种新的人工智能系统,该系统可以通过科学论文并提取“配方”来生产特定类型的材料。

这项工作被设想为朝向系统的第一步,该系统可以产生仅在理论上描述的材料的配方。现在,在npj计算材料杂志的一篇论文中,同样的三位材料科学家和麻省理工学院电气工程与计算机科学系(EECS)的同事,朝着这个方向迈出了一步,采用了一种新的人工智能系统。可以识别在配方中一致的更高级别的模式。

例如,新系统能够识别材料配方中使用的“前体”化学品与所得产品的晶体结构之间的相关性。事实证明,相同的相关性已在文献中记录。

该系统还依赖于统计方法,这些方法提供了生成原始配方的自然机制。在论文中,研究人员使用这种机制为已知材料建议替代配方,这些建议符合实际配方。

新论文的第一作者是Edward Kim,他是材料科学与工程专业的研究生。资深作者是他的顾问,Elsa Olivetti,大西洋里奇菲尔德材料科学与工程系(DMSE)能源研究助理教授。他们加入了DMSE的博士后Kevin Huang和EECS的X-Window联盟职业发展助理教授Stefanie Jegelka。

稀疏而稀缺

像许多过去10年中表现最佳的人工智能系统一样,麻省理工学院研究人员的新系统是一个所谓的神经网络,它通过分析大量的训练数据来学习执行计算任务。传统上,尝试使用神经网络生成材料配方已经遇到了两个问题,研究人员将其描述为稀疏性和稀缺性。

材料的任何配方都可以表示为矢量,它本质上是一长串数字。每个数字代表配方的一个特征,例如特定化学品的浓度,溶解它的溶剂或发生反应的温度。

由于任何给定的配方仅使用文献中描述的许多化学品和溶剂中的一些,因此大多数这些数字将为零。这就是研究人员所说的“稀疏”。

类似地,为了了解如何修改反应参数(例如化学浓度和温度)可以影响最终产品,理想情况下,系统将在大量这些参数变化的实例上进行训练。但对于某些材料 - 特别是较新的材料 - 文献可能只包含一些食谱。那是稀缺的。

“人们认为,通过机器学习,你需要大量数据,如果数据稀少,你需要更多数据,”Kim说。“当你试图专注于一个非常特殊的系统,你被迫使用高维数据,但你没有很多,你还能使用这些神经机器学习技术吗?”

神经网络通常被布置成层,每个层由数千个简单处理单元或节点组成。每个节点都连接到上下层中的多个节点。数据被输入底层,底层操纵它并将其传递给下一层,下一层操纵它并将其传递给下一层,依此类推。在训练期间,不断地重新调整节点之间的连接,直到最终层的输出始终接近某些计算的结果。

稀疏高维数据的问题在于,对于任何给定的训练示例,底层中的大多数节点都不接收数据。需要一个非常大的训练集来确保整个网络能够看到足够的数据来学习可靠的概括。

人为瓶颈

麻省理工学院研究人员网络的目的是将输入向量提取到更小的向量中,所有向量都对每个输入都有意义。为此,在一些实验中,网络中间只有几个节点,只有两个节点。

培训的目标只是配置网络,使其输出尽可能接近其输入。如果训练成功,那么中间层中的少数节点必须以某种方式表示输入向量中包含的大部分信息,但是以更加压缩的形式。输出尝试匹配输入的这种系统称为“自动编码器”。

自动编码补偿了稀疏性,但为了处理稀缺性,研究人员不仅训练他们的网络生产特定材料的配方,而且还生产用于生产非常相似材料的配方。他们使用了三种相似度量,其中一种旨在尽量减少材料之间的差异数量 - 例如,只用一个原子代替另一个原子 - 同时保留晶体结构。

在训练期间,网络给出示例配方的权重根据其相似性得分而变化。

发挥赔率

事实上,研究人员的网络不仅仅是一个自动编码器,而是一个所谓的变分自动编码器。这意味着在训练期间,网络不仅要评估其输出与输入的匹配程度,还要评估中间层采用的值与某些统计模型(如熟悉的钟形曲线或正态分布)的一致程度。 。也就是说,在整个训练集中,中间层采用的值应该围绕中心值聚集,然后在所有方向上以常规速率逐渐减小。

在针对二氧化锰和相关化合物的配方训练了具有双节点中间层的变分自动编码器之后,研究人员构建了一个二维图,描绘了两个中间节点在训练集中的每个示例所采用的值。

值得注意的是,使用相同前体化学物质的训练样例粘贴在地图的相同区域,区域之间有明显的边界。对于产生四种二氧化锰常见“多晶型物”或晶体结构的培养实例也是如此。并且将这两个映射结合起来表明了特定前体和特定晶体结构之间的相关性。

“我们认为这些地区是连续的很酷,”奥利维蒂说,“因为没有理由认为这一定是真的。”

变分自动编码也是研究人员系统生成新配方的原因。由于中间层采用的值遵循概率分布,因此随机选择该分布的值可能会产生合理的配方。

“这实际上触及了目前对机器学习非常感兴趣的各种主题,”Jegelka说。“通过结构化对象学习,允许通过专家进行解释和与专家交互,以及生成结构化复杂数据 - 我们整合了所有这些。”

“'可合成性'是一个概念的例子,它是材料科学的核心,但缺乏良好的基于​​物理的描述,”Citrine Informatics的创始人兼首席科学家Bryce Meredig说道,该公司提供大数据和人工智能技术承担材料科学研究。“因此,新材料的计算屏幕多年来因预测材料的合成难以接近而受到限制.Olivetti及其同事采用了一种新颖的,数据驱动的方法来绘制材料合成图,并为使我们能够进行计算做出了重要贡献。识别不仅具有令人兴奋的特性而且实际上可以在实验室中制造的材料。“


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。