用于从期刊文章中提取关键信息的Web应用程序

2019-08-26 17:12:12 编辑：来源：

导读学术论文通常包含有关各种领域的新突破和有趣理论的说明。然而，这些文章中的大部分是使用行话和技术语言编写的，只有熟悉该特定研究领域的

学术论文通常包含有关各种领域的新突破和有趣理论的说明。然而，这些文章中的大部分是使用行话和技术语言编写的，只有熟悉该特定研究领域的读者才能理解。

因此，非专业读者通常无法理解科学文章，除非他们被策划并且更容易被理解其中包含的概念和想法的第三方访问。考虑到这一点，德克萨斯大学奥斯汀分校(TACC)，俄勒冈州立大学(OSU)和美国植物生物学家协会(ASPB)的德克萨斯高级计算中心的一组研究人员已着手开发一种工具，可以从研究论文中自动提取重要的短语和术语，以提供有用的定义并增强其可读性。

“我们的项目的动机是需要提高期刊文章的可读性，”TACC团队负责人Weijia Xu告诉TechXplore。“这是生物策展人，期刊出版商和计算机科学家之间的共同努力，旨在开发一种能够识别并使作者能够完成期刊出版物中使用的重要术语的网络服务。术语和文字随后附在期刊文章的末尾。为了增加读者的可访问性。“

Xu和他的同事开发了一个可扩展的框架，可用于从文档中提取信息。然后，他们在名为DIVE(域信息词汇表提取)的Web服务中实现了该框架，并将其与ASPB的日志发布管道集成。与现有的用于提取域信息的工具不同，它们的框架结合了几种方法，包括本体引导提取，基于规则的提取，自然语言处理(NLP)和深度学习技术。

“然后，不同模型获得的结果存储在一个集中的数据库中，”Xu解释道。“我们还设计了一个Web服务，允许用户策划提取结果.Web 服务与ASPB的生产发布管道集成。”

一旦提交了期刊文章的预览版本并进入ASPB的管道，该稿件将自动提供给DIVE，后者处理它并生成一个URL，作者可以使用该URL访问DIVE的处理结果。要求该论文的作者访问所提供的链接，并在他/她能够正式提交论文之前审查所提取的信息。

“作者需要访问潜水网站来审查提取结果，并最终批准将在文章末尾列入的信息列表，”徐说。“DIVE还跟踪作者更正以改进未来的提取任务。目前，没有其他期刊出版商采用类似的方法并将其与其出版管道相结合。”

在分析过程中以及从文档中提取关键数据时，研究人员开发的框架使用了几种技术。这使得它可以捕获比其他方法更多的信息，例如ABNER(生物医学命名实体识别器)，它是用于分子生物学文本挖掘的开源软件工具，其只能提取一般术语(例如基因和蛋白质)。与DIVE相反，ABNER仅基于条件随机场(CRF)，这是一种常用于模式识别和机器学习应用的统计建模方法。

“我们项目的一个主要贡献是，它有助于建立数据集和模型，可以从他们的出版物推断出作者的研究兴趣，”徐说。“我们的项目可以使更广泛的生物研究人员受益。对于作者来说，提取和包含关键信息可以增加他们文章的可访问性。”

Xu和他的同事Amit Gupta评估了他们的框架，并将其性能与其他信息提取工具(包括ABNER)的性能进行了比较。他们的研究结果显示，使用多种方法，包括深度学习，DIVE获得的精度得分高于仅基于CRF的其他预训练模型。有趣的是，DIVE框架也可以不断更新，因为可以随时添加其他提取模型。

DIVE Web应用程序不仅允许非专业读者更好地理解学术论文，还可以帮助他们识别符合其兴趣的论文。另一方面，研究人员可以使用DIVE了解特定研究领域，以及了解与其感兴趣领域相关的新术语和趋势。最后，应用程序生成的信息还可以指导生物学策展人的决策和数据收集过程。

“我们正在通过探索两个方向来继续我们的项目，”徐说。“一方面，我们正在研究与我们的信息提取模型相结合的新方法，以提高性能。另一方面，我们也试图通过向其他用户社区和期刊出版商提供服务来扩展我们的服务。”

标签： Web应用程序