Hive是数据仓库管理和分析工具,是大数据离线分析的主流。
Hive是一种用SQL语句来协助读写、管理存储在分布式存储系统上的大数据集的数据仓库软件。
特点
1。Hive通过类SQL分析大数据,从而避免编写MapReduce Java程序分析数据
2。数据存储在HDFS,Hive本身不提供数据存储功能
3。Hive将数据映射成数据库和表,库和表的元数据信息一般存储在关系型数据库(如MySQL)
4。Hive可以存储很大的数据集,但对数据完整性、格式要求不严格
5。Hive不适用于实时计算和响应,适用于离线分析
【参考】
- 淳月滨:《Hive简明教程》