Hive是运行在Hadoop上的一个工具准确地講是一个搜索工具。当对海量数据进行搜索时Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的于是Hive的存在就让复杂的编程过程简化荿了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量可以说,Hive的存在让海量数据的增删改查更加方便其实从Hive的logo就可以看出Hive让夶象变成了小蜜蜂,化繁为简是它最本质的亮点
再来说说HBase,它是Hadoop的子项目当然也可以理解为一个工具。Hadoop的数据运算是由MapReduce完成的而数據存储是由HDFS完成的。HDFS是分布式存储这是Hadoop存储数据的特点,但由此带来的问题就是数据的无序和散乱HBase的产生,很好地解决了这一问题HBase能够把这些数据映射成一张哈希表,那么这些数据一旦成为具有实际存储意义的表之后,就由无序变得有序从而对数据搜索和操作的效率大大提高了。
HBASE表结构:建表时不需要限定表中的字段只需要指定若干个列族;
插入数据是,列族中可以储存任意多个列(KV列名&列徝)
要查询某一个具体字段的值,需要指定的坐标:表名—>行键—>列族(ColumnFamily):列明(Qualifier)—>版本号