从期刊文章中提取关键信息的web应用程序

2020-06-10 15:07:59 编辑：来源：

导读学术论文通常会涉及到各个领域的新突破和有趣的理论。然而，这些文章中的大部分都是用专业术语和技术语言写的，只有熟悉特定研究领域的读者才能理解。因此，非专业读者通常无法理解科学文章，除非它们是经过策划的，并由理解其中概念和思想的第三方更容易理解。考虑到这一点,一个研究小组在得克萨斯高级计算中心德克萨斯大学奥斯汀分校(TACC),俄勒冈州立大学(俄勒冈州立大学)和美国社会的植物生物学家(ASPB)

学术论文通常会涉及到各个领域的新突破和有趣的理论。然而，这些文章中的大部分都是用专业术语和技术语言写的，只有熟悉特定研究领域的读者才能理解。

因此，非专业读者通常无法理解科学文章，除非它们是经过策划的，并由理解其中概念和思想的第三方更容易理解。考虑到这一点,一个研究小组在得克萨斯高级计算中心德克萨斯大学奥斯汀分校(TACC),俄勒冈州立大学(俄勒冈州立大学)和美国社会的植物生物学家(ASPB)已经着手开发一种工具,它可以自动提取重要的词语和术语研究论文以提供有用的定义和增强可读性。

“我们的项目是为了提高期刊文章的可读性，”TACC团队的负责人徐维佳告诉TechXplore。这是生物策展人、期刊出版商和计算机科学家的共同努力，旨在开发一种网络服务，可以识别并使作者策展期刊出版物中使用的重要术语。然后，这些术语和词汇被附在期刊文章的结尾，以增加读者的可访问性。”

Xu和他的同事开发了一个可扩展的框架，可以用来从文档中提取信息。然后，他们在一个名为DIVE(领域信息词汇提取)的web服务中实现了这个框架，并将其与ASPB的期刊出版管道集成在一起。与现有的提取领域信息的工具不同，它们的框架结合了几种方法，包括本体指导提取、基于规则的提取、自然语言处理(NLP)和深度学习技术。

“不同模型得到的结果会被存储在一个中央数据库中，”徐解释说。“我们还设计了一个web服务，允许用户管理提取结果。web服务与ASPB的生产发布管道集成在一起。

一旦期刊文章的预览版本被提交并进入ASPB的管道，手稿就会自动输入到DIVE，后者对其进行处理并生成一个URL，通过这个URL，作者将能够访问DIVE的处理结果。论文作者在正式提交论文之前，需要访问提供的链接，查看提取的信息。

“作者需要访问潜水地点，审查提取结果，并最终批准文章末尾的信息列表，”徐说。DIVE还会跟踪作者的纠正，以改进未来的提取任务。目前，还没有其他期刊出版商采用类似的方法，并将其整合到自己的出版渠道中。”

在分析过程中以及从文件中提取关键数据时，研究人员开发的框架使用了几种技术。这使得它能够比其他方法捕获更多的信息，比如ABNER(一种生物医学命名的实体识别器)，它是一种用于分子生物学文本挖掘的开源软件工具，只能提取通用术语(例如基因和蛋白质)。与DIVE相反，ABNER只是基于条件随机场(CRFs)，一种统计建模方法，在模式识别和机器学习应用中常用。

“我们项目的一个主要贡献是，它有助于建立数据集和模型，可以从作者的出版物中推断他们的研究兴趣，”徐说。“我们的项目可以使更广泛的生物研究人员受益。对于作者来说，关键信息的提取和包含可以增加他们文章的可访问性。”

Xu和他的同事Amit Gupta评估了他们的框架，并将其性能与其他信息提取工具(包括ABNER)进行了比较。他们的发现表明，使用多种方法，包括深度学习，潜水获得的分数比其他预先训练的仅基于CRFs的模型更高的精度。有趣的是，还可以不断地更新DIVE框架，因为可以随时向其添加额外的提取模型。

DIVE web应用程序不仅能让非专业读者更好地理解学术论文，还能帮助他们识别符合自己兴趣的论文。另一方面，研究人员可以使用DIVE来了解特定的研究领域，以及了解与他们感兴趣的领域相关的新术语和趋势。最后，应用程序生成的信息还可以指导生物策展人的决策和数据收集过程。

“我们将继续探索两个方向，”徐说。“一方面，我们正在研究新的方法来结合我们的信息提取模型来提高性能。另一方面，我们也在努力扩大我们的服务，向更多的用户社区和期刊出版商提供这项服务。”

标签： Web