导航:首页 > 数据处理 > hive如何删数据文件

hive如何删数据文件

发布时间:2022-10-03 20:48:07

⑴ hive表的类型有哪些

Hive 的表有哪些类型呢,我们简单可以分为四种,受控表、外部表、分区表、桶表,从严格意义上说,应该分为两种受控表,又叫内部表、外部表,分区表和桶表其实是受控表的不同体现。

1、受控表

所谓受控表,我们也经常叫内部表,和外部表对应起来,就是说表的数据的生命周期收表的控制,当表定义被删除的时候,表中的数据随之一并被删除。创建一张表,其对应在hive中就有了表记录,在metastore表TBLS中就有表定义,当我们一旦从hive中删除一张表的定义之后,其表中的数据也就不复存在了,在metastore中的定义也就不存在了。

2、外部表

和受控表相对的,怎么相对呢,你的内部表的数据的生命周期受表定义的影响不是,外部表的不是这样的,数据的生命周期, 或者说数据存在与否和表的定义互不约束,表中的数据呢,只是表对hdfs上相应文件的一个引用而已,当删除表定义的时候,表中的数据依然存在。
3、分区表

假设服务器集群每天都产生一个日志数据文件,把数据文件统一存储到HDFS中。我们如果想查询某一天的数据的话,hive执行的时候会对所有文件都扫描一遍,判断是否是指定的日期。可以让日期作为一个子目录。当hive查询的时候,根据日期去判断子目录。然后扫描符合条件的子目录中的数据文件。

4、桶表

桶表是对数据进行哈希取值,然后放到不同文件中存储。分桶是将数据及分解成更容易管理的若干部分的另一种技术。如果进行表连接操作,那么就需要对两张表的数据进行全扫描。非常耗费时间。可以针对连接字段进行优化。分桶这种情况下呢,对于相似的表中的数据进行比较的话就非常的方便了,只要对比相应的桶中的数据就可了。

⑵ hive中怎么删除表中的部分数据

Hive的数据管理:

(1)元数据存储

Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库

Single User Mode:此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。

Multi User Mode:通过网络连接到一个数据库中,这是最常用的模式。

Remote Server Mode:用于非 Java 客户端访问元数据库,在服务器端启动一个 MetaStoreServer,客户端则利用 Thrift 协议通过 MetaStoreServer来访问元数据库。

(2)数据存储

首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由地组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,它就可以解析数据了。

其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含4种数据模型:Table、External Table、Partition、Bucket。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录来存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。

Partition 对应于数据库中Partition 列的密集索引,但是 Hive 中 Partition 的组织方式与数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, city = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/city=US;对应于 ds = 20090801, city = CA 的 HDFS 子目录为:/wh/pvs/ds=20090801/city=CA。

Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了便于并行,每一个 Buckets对应一个文件。将 user 列分散至 32 个Bucket上,首先对 user 列的值计算 hash,比如,对应 hash 值为 0 的 HDFS 目录为:/wh/pvs/ds=20090801/city=US/part-00000;对应hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/city=US/part-00020。

External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition。它和 Table 在元数据的组织结构上是相同的,而在实际数据的存储上则有较大的差异。

在Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成)中,实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时,表中的数据和元数据将会被同时删除。

External Table 只有一个过程,因为加载数据和创建表是同时完成的。实际数据是存储在 Location 后面指定的 HDFS 路径中的,它并不会移动到数据仓库目录中。

(3)数据交换

数据交换主要分为以下几个部分

用户接口:包括客户端、Web界面和数据库接口。

元数据存储:通常是存储在关系数据库中的,如MySQL、Derby等。

解释器、编译器、优化器、执行器。

Hadoop:用 HDFS进行存储,利用 MapRece 进行计算。

用户接口主要有三个:客户端、数据库接口和Web界面,其中最常用的是客户端。Client 是 Hive 的客户端,当启动 Client 模式时,用户会想要连接Hive Server,这时需要指出 Hive Server 所在的节点,并且在该节点启动 Hive Server。Web界面是通过浏览器访问 Hive的。

Hive 将元数据存储在数据库中,如 MySQL、Derby中。Hive 中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表数据所在的目录等。

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后由 MapRece调用执行。

Hive 的数据存储在 HDFS 中,大部分的查询由 MapRece 完成(包含 * 的查询不会生成 MapRedcue 任务,比如 select * from tbl)。

以上从Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive入手介绍了Hadoop的数据管理,它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理,完成了Hadoop平台上大规模的数据存储和任务处理

⑶ hive.log可以删吗

可以。在hive中删除只会删除MySQL元数据hdfs上的原始数据不会删除内部表外部表转换。

⑷ 在hive中怎样删除一张有数据的管理表,包括删除数据

Hive的数据管理:

(1)元数据存储

Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库:

Single User Mode:此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。

Multi User Mode:通过网络连接到一个数据库中,这是最常用的模式。

Remote Server Mode:用于非 Java 客户端访问元数据库,在服务器端启动一个 MetaStoreServer,客户端则利用 Thrift 协议通过 MetaStoreServer来访问元数据库。

(2)数据存储

首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由地组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,它就可以解析数据了。

其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含4种数据模型:Table、External Table、Partition、Bucket。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录来存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。

Partition 对应于数据库中Partition 列的密集索引,但是 Hive 中 Partition 的组织方式与数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, city = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/city=US;对应于 ds = 20090801, city = CA 的 HDFS 子目录为:/wh/pvs/ds=20090801/city=CA。

Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了便于并行,每一个 Buckets对应一个文件。将 user 列分散至 32 个Bucket上,首先对 user 列的值计算 hash,比如,对应 hash 值为 0 的 HDFS 目录为:/wh/pvs/ds=20090801/city=US/part-00000;对应hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/city=US/part-00020。

External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition。它和 Table 在元数据的组织结构上是相同的,而在实际数据的存储上则有较大的差异。

在Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成)中,实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时,表中的数据和元数据将会被同时删除。

External Table 只有一个过程,因为加载数据和创建表是同时完成的。实际数据是存储在 Location 后面指定的 HDFS 路径中的,它并不会移动到数据仓库目录中。

(3)数据交换

数据交换主要分为以下几个部分

⑸ hive中怎样删除分区

清除扇区数据,会经磁盘中的清零并用随机字符重写,这样操作后
数据就再没有办法恢复
清除扇区数据的时候可以选择某个分区进行
删除所有分区
会将所有分区删除
详细看软件的使用教程或是咨询客服吧

⑹ Hive(五)DML数据操作

语法

(1)load data:表示加载数据
(2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表
(3)inpath:表示加载数据的路径
(4)overwrite:表示覆盖表中已有数据,否则表示追加
(5)into table:表示加载到哪张表
(6)student:表示具体的表
(7)partition:表示上传到指定分区
案例

 2)导入本地数据

 3)查看person表数据

 2)清空 person表数据; truncate table person;

 3)查看person表清空情况(已经没有数据了)

 4)导入 HDFS 数据到 person表中

 5)重新查询 person表,查看数据情况

 2) 导入HDFS,无需添加 local

 3) row format delimited fields terminated by ' ' ;

语法:insert into <table> <表名> <查询语句>
案例:
创建一张新表:create table if not exists person2(id int,name string,phone string);

将 person 表中id 为 1和3的数据插入到 person2表中。

查询person2表数据

方式二:into overwrite
语法:insert overwrite table <表名> <查询语句>
测试之前重新准备一张表

向 person6 表中添加数据。

数据结果

注意:使用 insert overwrite 后面必须加上 table ,否则报错
注意

语法 :create table [if not exists] <表名> as <查询语句>
描述 :根据查询结果创建表(查询的结果会添加到新创建的表中)
案例
按照person表的结果创建person3表

查询 person3

注意:使用查询结果创建数据表时,需要加入 关键字

管理表
语法 :create table [if not exists] <表名>(字段信息) row format delimited fields terminated by <分割符>location <加载数据路径>
案例 :加载person 表的数据。
查询 person 数据加载的地址

创建 person4 表并设置 person表的数据路径。

查询 person4 表信息;person4中的表数据全部来自于person表。

外部表

创建一个管理表 t1

向管理表t1中添加一条数据

创建t2 并指定t1数据的加载地址

查询 t2 表

删除 t1 表

再次查询 t2 表

验证 t1 为外部表时,删除t1表时,是否会删除数据。
重新创建 t1表

向t1中添加数据3

创建 t2(原来的给删除了)并指定为外部表,并加载 t1的数据路径

查询 t1 表结构(验证是否为外部表

查询 t2 数据(有数据2)

删除t1 表

查询 t2 表(数据并没有删除)

更加深刻理解 管理表和外部表之间的区别。

语法 :import table <全新的表名> from '<Export 导出的地址>'

查询 person_import 表

查看家目录,生成了 一个 aaa目录,目录中有一个 000000_0 文件

查看 000000_0文件;正好是 person表中的数据。

注意:这里的 overwrite 并不是可选项(可加不可加),这里必须加上overwrite ,否则会报错。

查看 000000_0文件;使用了制表符,对数据进行格式化。

查看 /aaa/000000_0 文件

查看person_bak 文件

语法 :hive -e "<sql语句>" > <输出路径>
案例

查看家目录中的 person_bak

语法 :export table <表名> to '<HDFS地址>'
案例 :将 person 表的数据导出到 HDFS /person2中

查看 /person2 的层次结构

查看 /person2/data/person

⑺ hive中怎么删除表中的部分数据

insert
overwrite
table
t_table1
select
*
from
t_table1
where
XXXX;
其中xxx是你需要保留的数据的查询条件。
如果清空表,如下:
insert
overwrite
table
t_table1
select
*
from
t_table1
where
1=0;

⑻ hive删除一列了数据还在吗,查找会有影响吗

不在,不会影响。hive在删除表的时候,内部表的元数据和数据会被一起删除,而hive外部表只删除元数据,不删除数据,所以查找不会影响。

阅读全文

与hive如何删数据文件相关的资料

热点内容
新手代理商有哪些风险 浏览:855
吃鸡实名信息怎么换 浏览:956
小程序打卡一年多少费用 浏览:324
新币上交易所在哪个网址买 浏览:887
怎么查询一个公司有没有专利代理 浏览:635
如何将c程序变成应用软件 浏览:810
最灵的玉器批发市场在哪里 浏览:444
程序员管理岗怎么转 浏览:868
设计微信小程序logo多少钱 浏览:494
小程序上架商城需要什么资质 浏览:190
湖南最大的玉石市场在哪里 浏览:201
当贝市场哪个电视可以下载 浏览:87
义乌财务代理多少钱一个月 浏览:94
银行卡交易虚拟类什么意思 浏览:264
78年产的安公丸现在市场价多少 浏览:569
怎么采集传感器的数据 浏览:887
数控加工能学到什么技术 浏览:548
李佳奇有什么产品 浏览:823
数据网络是哪里 浏览:796
为什么代理商必须修改标题 浏览:547