Hive是数据仓库管理和分析工具,是大数据离线分析的主流。

Hive是一种用SQL语句来协助读写、管理存储在分布式存储系统上的大数据集的数据仓库软件。

特点

1。Hive通过类SQL分析大数据,从而避免编写MapReduce Java程序分析数据

2。数据存储在HDFS,Hive本身不提供数据存储功能

3。Hive将数据映射成数据库和表,库和表的元数据信息一般存储在关系型数据库(如MySQL)

4。Hive可以存储很大的数据集,但对数据完整性、格式要求不严格

5。Hive不适用于实时计算和响应,适用于离线分析

【参考】

  1. 淳月滨:《Hive简明教程》

results matching ""

    No results matching ""