您的位置: 首页 >要闻 >

大数据是当今信息繁重世界中最有前途但最具挑战性的方面之一

2019-06-25 11:21:51 编辑: 来源:
导读 为了解决大数据科学中的一个主要障碍,KAUST研究人员创建了一个框架,用于搜索在不同计算体系结构上轻松运行的大型数据集。他们的成就使研

为了解决大数据科学中的一个主要障碍,KAUST研究人员创建了一个框架,用于搜索在不同计算体系结构上轻松运行的大型数据集。他们的成就使研究人员能够专注于推进搜索引擎或查询引擎本身,而不是精心编写特定的计算平台。

大数据是当今信息繁重世界中最有前途但最具挑战性的方面之一。虽然巨大且不断扩展的信息集(如在线收集的数据或遗传信息)可以为科学和人类提供强有力的见解,但处理和查询所有这些数据需要高度复杂的技术。

已经探索了许多不同的查询大数据的方法。但是最强大和计算效率之一是基于使用主题 - 谓词 - 对象三元组结构分析数据(例如,apple,是a,fruit)。这种结构有助于将其视为具有边和顶点的图形,并且该特性已被用于为特定计算体系结构编码查询引擎以获得最大效率。但是,这种特定于体系结构的方法无法轻松移植到不同的平台,从而限制了分析创新和进步的机会。

“现代计算系统提供多样化的平台和加速器,对它们进行编程可能会令人生畏和耗时,”Fuad Jamour和Yanzhao Chen博士说。KAUST极端计算研究中心Panos Kalnis小组的候选人。“我们的研究小组专注于构建用于处理和分析非常大的数据集的系统和算法。这项研究解决了编写程序一次然后在不同平台上使用它的愿望。”

该组不是使用先前使用的图遍历或穷举关系索引方法,而是使用称为稀疏矩阵代数的应用数学方法来查询三元组数据。

“我们的论文描述了第一个以矩阵代数为核心的研究图形查询引擎,以解决可移植性问题,”Jamour说。“大多数现有的图形查询引擎都是针对单个计算机或小型分布式内存系统而设计的。将现有引擎移植到大型分布式内存系统(如超级计算机)需要大量的工程工作。我们的稀疏矩阵代数方案可用于构建可扩展的,便携和高效的图形查询引擎。“

该团队在大型真实和合成数据集上的实验实现了与现有的复杂查询专用方法相当或更好的性能。他们的计划还具有扩展到处理高达512亿三元组数据集的超大型计算基础架构的能力。

“这些想法可以促进图形数据库中的分析组件的构建,具有尖端的性能,目前需求量很大,”Chen说。


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。