加入收藏 | 设为首页 | 会员中心 | 我要投稿 宁德站长网 (https://www.0593zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

大数据和开源查询

发布时间:2021-04-11 17:55:38 所属栏目:评论 来源:互联网
导读:che Hive是基于Hadoop生态系统的旗舰数据仓库工具。它不仅将结构化的数据文件映射到数据库表,而且还提供SQL(HQL)查询功能(例如SQL语句)并将SQL语句转换为MapReduce任务以供执行。 它是由Facebook开发的,于2008年进入Apache孵化器,并于2010年9月成为优秀Ap

che Hive是基于Hadoop生态系统的旗舰数据仓库工具。它不仅将结构化的数据文件映射到数据库表,而且还提供SQL(HQL)查询功能(例如SQL语句)并将SQL语句转换为MapReduce任务以供执行。

它是由Facebook开发的,于2008年进入Apache孵化器,并于2010年9月成为优秀Apache项目。背后的原理是利用熟悉的SQL模型来处理HDFS(Hadoop)上的数据。借助Hive,学习成本低,并且可以通过HQL语句快速转换简单的MapReduce统计信息,而无需担心开发其他特殊的MapReduce应用程序。

Hive非常方便地在整个企业范围内对数据仓库进行建模和构建,而Hive SQL模型则可以对数据仓库中的数据进行统计和分析。

但是,Hive的底层被转换为MR,而MR的改组依赖于系统磁盘,因此它只能处理离线分析,这效率相对较低,在开发人员社区中不可接受。Hive通常使用Hive在整个组织中构建数据仓库。 SparkSQL是主要的Spark组件构建,用于处理结构化数据。Spark SQL于2014年发布,并吸收了Hive-on-Spark项目,该项目现在是使用最广泛的Spark模块。它提供了一个称为DataFrames的可编程抽象数据模型,并被视为分布式SQL查询引擎。

SparkSQL取代了Hive的查询引擎,但也与hive系统兼容。关于Spark RDD API,Spark SQL提供的接口将为Spark提供有关结构化数据和计算的更多信息。SparkSQL最底层是Spark Core,它使您可以轻松地在不同的SQL和API之间切换。一个分布式数据查询引擎,但从不存储数据本身Presto将提供对多个数据源的访问,并支持跨不同数据源的级联查询。它是一个分布式SQL交互式查询引擎,它也在2012年由Facebook开发,并于2013年开源。

Presto是一种OLAP工具,适用于海量数据的复杂分析,但不适用于OLTP方案。Presto仅提供计算和分析功能,而不能用作数据库系统。

就Hive而言,Presto是一种低延迟,高并发性的内存计算引擎。它的执行效率比Hive高得多。它的MPP(大规模并行处理)模型可以处理PB级数据。Presto的原理只是将一些数据放入内存中进行计算,完成后将其取出,然后再次处理其他一些数据,例如循环和类似于管道处理模式。

(编辑:宁德站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读