从科学文本中提取关键信息的新系统

2020-06-10 15:05:21 编辑：来源：

导读科学文章，如研究文章或评论，有时很难分析和理解，特别是对于非专业读者。近年来，工程师们试图开发一种方法，可以自动从密集的科学文本中提取最重要的信息，然后用来指导读者并帮助他们理解文本。然而，目前开发的一些信息提取(IE)系统只能提取文本内容的一小部分，而另一些系统在包含长句子和复杂句子的文本上表现不佳。在最近预发表在arXiv上的一篇论文中，苏格兰Heriot-Watt大学的研究人员介绍了一

科学文章，如研究文章或评论，有时很难分析和理解，特别是对于非专业读者。近年来，工程师们试图开发一种方法，可以自动从密集的科学文本中提取最重要的信息，然后用来指导读者并帮助他们理解文本。

然而，目前开发的一些信息提取(IE)系统只能提取文本内容的一小部分，而另一些系统在包含长句子和复杂句子的文本上表现不佳。在最近预发表在arXiv上的一篇论文中，苏格兰Heriot-Watt大学的研究人员介绍了一种新的IE方法，该方法结合了从科学文本中提取信息的两种最常用技术。

“我们在赫瑞瓦特大学的研究旨在支持自然激发的问题解决，”进行这项研究的研究人员之一鲁本·克鲁伯告诉TechXplore。他的想法是，工程师需要在生物学研究论文中找到相关信息。一个主要问题是，工程师和整个行业普遍缺乏生物学专业知识，甚至无法识别相关信息。”

试图理解生物学论文并在研究中应用这些论文中提出的概念的计算机科学家，往往很难理解生物学术语，并迅速决定一篇文章是否值得深入阅读。这些问题也经常被那些在他们所阅读的科学领域缺乏专业知识的读者所遇到。

Kruiper说:“有时候，即使是专家也会花上几个小时来确定新出版文献的中心主题和概念。”“在我们的工作中，我们试图通过提供科学文本中所讨论的中心概念的概述来支持所有读者。”

通常，有两种系统可以从科学文本中提取信息:狭窄的和开放的IE系统。第一种是通过精确地识别文本中包含的不同概念之间的一些关系，例如在药理学研究中关注药物-基因的相互作用。然而，要使这种类型的系统工作，研究人员需要指定它应该寻找的关系的类型。

第二种IE系统实现了散点式方法，例如揭示由动词连接的名词和短语对。这种方法的一个局限性是，它让研究人员很难控制他们所提取的事实。此外，通常包含在科学文本中的句子的复杂句法会影响系统的性能，导致提取错误、不完整或不相关的信息。

Kruiper说:“我们的方法结合了两种类型系统的输出，我们称之为半开放关系提取。”“我们精确地提取我们想要的信息，然后用这些提取来过滤一个分散射击系统的结果。”

由Kruiper和他的同事开发的系统在两种最常用的IE技术的准确性和灵活性之间找到了一种独特的平衡。研究人员在一个包含10000个生物相关文本的语料库上运行它，发现它取得了显著的性能，成功地提取了其中包含的最关键的信息。

“我们证明了我们的半开放关系提取方法是值得的，”Kruiper说。过滤由scattershot系统提取的事实提高了整体质量，同时大大减少了文档中事实的压倒性数量。我们开发的综合方法可以合理准确地确定这种中心关系，同时也确定密切相关的事实。”

这组研究人员引入的半开放关系提取系统可以自动提取出一篇科学文章中包含的要点，让读者快速判断是否值得深入阅读，并确定可能感兴趣的部分。

IE系统的代码在网上公开，可以在Kuiper的GitHub页面上访问。在未来，它可能会被证明对研究人员或工程师有用，他们正在寻找一个主题的科学信息，而不是他们的专业领域，或者需要快速浏览大量的研究文章。

到目前为止，研究人员仅仅探索了将狭窄和开放IE系统结合起来的可行性。在他们接下来的研究中，他们想要编纂一个可以用来训练IE技术的数据集，进一步从科学文本中突破IE的边界。

Kruiper说:“改善和简化整个系统还有很大的空间。”然而，目前的设置已经能够收集更大更全面的数据集。准备这样一个数据集来训练新系统，以及在仿生案例研究中使用当前的设置，将为我们想要精确提取的信息类型提供有价值的见解。”

Kruiper和他的同事在Heriot-Watt大学的交互实验室和受自然启发的制造中心(NIMC)工作，该中心的主要任务是支持企业寻找更可持续的制造解决方案。因此，除了进行进一步的研究，他们目前正在寻求英国政府和公司的资助，以支持他们的工作和开发新技术。

标签：科学信息系统

免责声明：本文由用户上传，如有侵权请联系删除！

精彩推荐

图文推荐

点击排行

本站除标明“本站原创”外所有信息均转载自互联网版权归原作者所有。

邮箱：toplearningteam#gmail.com (请将#换成@)

从科学文本中提取关键信息的新系统

猜你喜欢

最新文章

精彩推荐

图文推荐

点击排行