蜂巢关键特性
熟悉sql接口:
使用现有的SQL技能对存储在Hadoop中的数据运行批处理查询. 查询是使用类似sql的语言编写的, HiveQL, 并通过MapReduce或Apache Spark™执行, 让更多的用户可以简单地处理和分析无限数量的数据.
共享数据结构:
使用HCatalog, Hadoop的表和存储管理层, Hive元数据公开给其他数据处理工具使用, 包括Pig和MapReduce, 以及通过REST API. 这使得用户可以轻松地读取和写入数据,而无需担心数据存储在哪里, 它的格式是什么, 或者重新定义每个工具的结构.
更快的批处理:
Hive-on- spark为Hive提供了下一代的批处理功能. 通过Apache Spark™执行查询, 强大的数据处理工具, 与MapReduce相比,用户将会看到显著的性能提升.
常见用例
转向Hive-on-Spark
Apache Spark™是一个强大的数据处理引擎,由于其额外的速度和更大的灵活性,它迅速成为Hadoop的开放标准. 与社会各界携手合作, k85彩乐园一直致力于改进目前构建在MapReduce上的工具, 包括蜂巢和猪, 并将它们迁移到Spark执行引擎,以获得更快的处理速度.