Hive数据分析的模式版权声明

原创
小哥 3年前 (2022-11-02) 阅读数 44 #大杂烩

一、Hive两种类型的数据

Hive数据分为表数据和元数据,表数据为。Hive中表格(table元数据用于存储表的名称、表的列和分区及其属性、表的属性(是否为外部表等)、表的数据所在的目录等。

二、Hive数据存储的

Hive是基于Hadoop分布式文件系统的数据仓库架构,它数据存储的在Hadoop分布式文件系统。Hive本身是没有专门数据存储的格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列和行分隔符,Hive数据可以被解析。那就去吧Hive将数据导入到表中只是将数据移动到表所在的目录(如果数据位于HDFS但如果数据在本地文件系统中,则将数据复制到表所在的目录)。

Hive其中包括以下数据模型:Table(表),External Table(外部表格)、Partition(分区)、Bucket(桶)。

1、表:Hive和关系数据库中的表在概念上相似,每个表都在中。HDFS有相应的目录用于存储表数据,可以使用${HIVE_HOME}/conf/hive-site.xml在配置文件中hive.metastore.warehouse.dir要配置的属性,则此属性的默认值为/user/hive/warehouse(此目录位于HDFS我们可以根据实际情况修改此配置。如果我有一块手表wyp,那么在HDFS中会创建/user/hive/warehouse/wyp目录(此处假定hive.metastore.warehouse.dir配置为/user/hive/warehouse);wyp表中的所有数据都存储在此目录中。这个例外是外部表。
2、外部表格:Hive中的外部表与表非常相似,但其数据不放在其表所属的目录中,而是存储在其他地方。优点在于,如果要删除该外部表,则不会删除该外部表指向的数据,而只会删除该外部表对应的元数据。然而。
3,分区:在。Hive在中,表的每个分区对应于表下的对应目录,所有分区的数据都存储在对应的目录中。例如wyp表有dt和city两个分区,然后对应的dt=20131218,city=BJ对应表格的目录为/user/hive/warehouse/dt=20131218/city=BJ,属于该分区的所有数据都存储在该目录中。
4,Bucket:计算指定列的ITS。hash,根据hash值分段的目的是并行的,每个存储桶对应一个文件(请注意分区之间的区别)。例如,Willwyp表id列分散至16在每个桶中,第一对id将计算该列的值。hash,对应hash值为0和16数据存储的的HDFS目录为:/user/hive/warehouse/wyp/part-00000;而hash值为2数据存储的的HDFS 目录为:/user/hive/warehouse/wyp/part-00002。

Hive数据抽象结构图

从上图可以看出,表在数据库下,表要进行分区、存储桶、倾斜数据和正常数据等,也可以在分区下建立桶。

二、Hive的元数据

Hive中的元数据包括表的名称、表的列和分区及其属性、表的属性(是否为外部表等)、表数据所在的目录等。 由于Hive的元数据HDFS系统中的文件读得多,修改得少,这显然不可能Hive元数据存储在HDFS中。目前Hive将元数据存储在数据库中,例如Mysql、Derby在……里面。我们可以修改Hive元数据的存储方式。


  javax.jdo.option.ConnectionURL
  jdbc:mysql://localhost:3306/hive_hdp?characterEncoding=UTF-8
                    &createDatabaseIfNotExist=true
  JDBC connect string for a JDBC metastore

  

  javax.jdo.option.ConnectionDriverName
  com.mysql.jdbc.Driver
  Driver class name for a JDBC metastore

  

  javax.jdo.option.ConnectionUserName
  root
  username to use against metastore database

  

  javax.jdo.option.ConnectionPassword
  123456
  password to use against metastore database

当然,您还需要复制相应数据库的启动。${HIVE_HOME}/lib目录,以便元数据可以存储在相应的数据库中。

转载来源: https://www.iteblog.com/archives/866.html

版权声明

所有资源都来源于爬虫采集,如有侵权请联系我们,我们将立即删除

热门