导航:首页 > 数据处理 > hive如何删数据文件

hive如何删数据文件

发布时间：2022-10-03 20:48:07

⑴ hive表的类型有哪些

Hive 的表有哪些类型呢，我们简单可以分为四种，受控表、外部表、分区表、桶表，从严格意义上说，应该分为两种受控表，又叫内部表、外部表，分区表和桶表其实是受控表的不同体现。

1、受控表

所谓受控表，我们也经常叫内部表，和外部表对应起来，就是说表的数据的生命周期收表的控制，当表定义被删除的时候，表中的数据随之一并被删除。创建一张表，其对应在hive中就有了表记录，在metastore表TBLS中就有表定义，当我们一旦从hive中删除一张表的定义之后，其表中的数据也就不复存在了，在metastore中的定义也就不存在了。

2、外部表

和受控表相对的，怎么相对呢，你的内部表的数据的生命周期受表定义的影响不是，外部表的不是这样的，数据的生命周期，或者说数据存在与否和表的定义互不约束，表中的数据呢，只是表对hdfs上相应文件的一个引用而已，当删除表定义的时候，表中的数据依然存在。
3、分区表

假设服务器集群每天都产生一个日志数据文件，把数据文件统一存储到HDFS中。我们如果想查询某一天的数据的话，hive执行的时候会对所有文件都扫描一遍，判断是否是指定的日期。可以让日期作为一个子目录。当hive查询的时候，根据日期去判断子目录。然后扫描符合条件的子目录中的数据文件。

4、桶表

桶表是对数据进行哈希取值，然后放到不同文件中存储。分桶是将数据及分解成更容易管理的若干部分的另一种技术。如果进行表连接操作，那么就需要对两张表的数据进行全扫描。非常耗费时间。可以针对连接字段进行优化。分桶这种情况下呢，对于相似的表中的数据进行比较的话就非常的方便了，只要对比相应的桶中的数据就可了。

⑵ hive中怎么删除表中的部分数据

Hive的数据管理：

（1）元数据存储

Hive 将元数据存储在 RDBMS 中，有三种模式可以连接到数据库：

Single User Mode：此模式连接到一个 In-memory 的数据库 Derby，一般用于 Unit Test。

Multi User Mode：通过网络连接到一个数据库中，这是最常用的模式。

Remote Server Mode：用于非 Java 客户端访问元数据库，在服务器端启动一个 MetaStoreServer，客户端则利用 Thrift 协议通过 MetaStoreServer来访问元数据库。

（2）数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由地组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，它就可以解析数据了。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含4种数据模型：Table、External Table、Partition、Bucket。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都有一个相应的目录来存储数据。例如，一个表 pvs，它在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的 Table 数据（不包括 External Table）都保存在这个目录中。

Partition 对应于数据库中Partition 列的密集索引，但是 Hive 中 Partition 的组织方式与数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应于 ds = 20090801, city = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/city=US；对应于 ds = 20090801, city = CA 的 HDFS 子目录为：/wh/pvs/ds=20090801/city=CA。

Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了便于并行，每一个 Buckets对应一个文件。将 user 列分散至 32 个Bucket上，首先对 user 列的值计算 hash，比如，对应 hash 值为 0 的 HDFS 目录为：/wh/pvs/ds=20090801/city=US/part-00000；对应hash 值为 20 的 HDFS 目录为：/wh/pvs/ds=20090801/city=US/part-00020。

External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在元数据的组织结构上是相同的，而在实际数据的存储上则有较大的差异。

在Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成）中，实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时，表中的数据和元数据将会被同时删除。

External Table 只有一个过程，因为加载数据和创建表是同时完成的。实际数据是存储在 Location 后面指定的 HDFS 路径中的，它并不会移动到数据仓库目录中。

（3）数据交换

数据交换主要分为以下几个部分

用户接口：包括客户端、Web界面和数据库接口。

元数据存储：通常是存储在关系数据库中的，如MySQL、Derby等。

解释器、编译器、优化器、执行器。

Hadoop：用 HDFS进行存储，利用 MapRece 进行计算。

用户接口主要有三个：客户端、数据库接口和Web界面，其中最常用的是客户端。Client 是 Hive 的客户端，当启动 Client 模式时，用户会想要连接Hive Server，这时需要指出 Hive Server 所在的节点，并且在该节点启动 Hive Server。Web界面是通过浏览器访问 Hive的。

Hive 将元数据存储在数据库中，如 MySQL、Derby中。Hive 中的元数据包括表的名字、表的列和分区及其属性、表的属性（是否为外部表等）、表数据所在的目录等。

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后由 MapRece调用执行。

Hive 的数据存储在 HDFS 中，大部分的查询由 MapRece 完成（包含 * 的查询不会生成 MapRedcue 任务，比如 select * from tbl）。

以上从Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive入手介绍了Hadoop的数据管理，它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理，完成了Hadoop平台上大规模的数据存储和任务处理

⑶ hive.log可以删吗

可以。在hive中删除只会删除MySQL元数据hdfs上的原始数据不会删除内部表外部表转换。

⑷ 在hive中怎样删除一张有数据的管理表，包括删除数据

Hive的数据管理：

（1）元数据存储

Hive 将元数据存储在 RDBMS 中，有三种模式可以连接到数据库：

Single User Mode：此模式连接到一个 In-memory 的数据库 Derby，一般用于 Unit Test。

Multi User Mode：通过网络连接到一个数据库中，这是最常用的模式。

Remote Server Mode：用于非 Java 客户端访问元数据库，在服务器端启动一个 MetaStoreServer，客户端则利用 Thrift 协议通过 MetaStoreServer来访问元数据库。

（2）数据存储

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含4种数据模型：Table、External Table、Partition、Bucket。

External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在元数据的组织结构上是相同的，而在实际数据的存储上则有较大的差异。

（3）数据交换

数据交换主要分为以下几个部分

⑸ hive中怎样删除分区

清除扇区数据，会经磁盘中的清零并用随机字符重写，这样操作后
数据就再没有办法恢复
清除扇区数据的时候可以选择某个分区进行
删除所有分区
会将所有分区删除
详细看软件的使用教程或是咨询客服吧

⑹ Hive（五）DML数据操作

语法：

（1）load data:表示加载数据
（2）local:表示从本地加载数据到hive表；否则从HDFS加载数据到hive表
（3）inpath:表示加载数据的路径
（4）overwrite:表示覆盖表中已有数据，否则表示追加
（5）into table:表示加载到哪张表
（6）student:表示具体的表
（7）partition:表示上传到指定分区
案例：

2）导入本地数据

3）查看person表数据

2）清空 person表数据； truncate table person;

3）查看person表清空情况（已经没有数据了）

4）导入 HDFS 数据到 person表中

5）重新查询 person表，查看数据情况

2） 导入HDFS，无需添加 local

3） row format delimited fields terminated by ' ' ;

语法：insert into <table> <表名> <查询语句>
案例：
创建一张新表：create table if not exists person2(id int,name string,phone string);

将 person 表中id 为 1和3的数据插入到 person2表中。

查询person2表数据

方式二：into overwrite
语法：insert overwrite table <表名> <查询语句>
测试之前重新准备一张表

向 person6 表中添加数据。

数据结果

注意：使用 insert overwrite 后面必须加上 table ，否则报错
注意

语法：create table [if not exists] <表名> as <查询语句>
描述：根据查询结果创建表（查询的结果会添加到新创建的表中）
案例：
按照person表的结果创建person3表

查询 person3

注意：使用查询结果创建数据表时，需要加入关键字

管理表
语法：create table [if not exists] <表名>(字段信息) row format delimited fields terminated by <分割符>location <加载数据路径>
案例：加载person 表的数据。
查询 person 数据加载的地址

创建 person4 表并设置 person表的数据路径。

查询 person4 表信息；person4中的表数据全部来自于person表。

外部表

创建一个管理表 t1

向管理表t1中添加一条数据

创建t2 并指定t1数据的加载地址

查询 t2 表

删除 t1 表

再次查询 t2 表

验证 t1 为外部表时，删除t1表时，是否会删除数据。
重新创建 t1表

向t1中添加数据3

创建 t2（原来的给删除了）并指定为外部表，并加载 t1的数据路径

查询 t1 表结构（验证是否为外部表

查询 t2 数据(有数据2）

删除t1 表

查询 t2 表（数据并没有删除）

更加深刻理解管理表和外部表之间的区别。

语法：import table <全新的表名> from '<Export 导出的地址>'

查询 person_import 表

查看家目录，生成了一个 aaa目录，目录中有一个 000000_0 文件

查看 000000_0文件；正好是 person表中的数据。

注意：这里的 overwrite 并不是可选项（可加不可加），这里必须加上overwrite ，否则会报错。

查看 000000_0文件；使用了制表符，对数据进行格式化。

查看 /aaa/000000_0 文件

查看person_bak 文件

语法：hive -e "<sql语句>" > <输出路径>
案例：

查看家目录中的 person_bak

语法：export table <表名> to '<HDFS地址>'
案例：将 person 表的数据导出到 HDFS /person2中

查看 /person2 的层次结构

查看 /person2/data/person

⑺ hive中怎么删除表中的部分数据

insert
overwrite
table
t_table1
select
*
from
t_table1
where
XXXX;
其中xxx是你需要保留的数据的查询条件。
如果清空表，如下：
insert
overwrite
table
t_table1
select
*
from
t_table1
where
1=0;

⑻ hive删除一列了数据还在吗,查找会有影响吗

不在，不会影响。hive在删除表的时候，内部表的元数据和数据会被一起删除，而hive外部表只删除元数据，不删除数据，所以查找不会影响。

阅读全文

与hive如何删数据文件相关的资料

热点内容

新手代理商有哪些风险发布：2024-04-29 21:41:26 浏览：855

吃鸡实名信息怎么换发布：2024-04-29 21:40:13 浏览：956

小程序打卡一年多少费用发布：2024-04-29 21:19:00 浏览：324

新币上交易所在哪个网址买发布：2024-04-29 21:18:47 浏览：887

怎么查询一个公司有没有专利代理发布：2024-04-29 21:13:48 浏览：635

如何将c程序变成应用软件发布：2024-04-29 20:15:12 浏览：810

最灵的玉器批发市场在哪里发布：2024-04-29 19:47:34 浏览：444

程序员管理岗怎么转发布：2024-04-29 19:30:56 浏览：868

设计微信小程序logo多少钱发布：2024-04-29 19:27:46 浏览：494

小程序上架商城需要什么资质发布：2024-04-29 18:52:17 浏览：190

湖南最大的玉石市场在哪里发布：2024-04-28 23:55:02 浏览：201

当贝市场哪个电视可以下载发布：2024-04-28 23:49:03 浏览：87

义乌财务代理多少钱一个月发布：2024-04-28 23:30:32 浏览：94

银行卡交易虚拟类什么意思发布：2024-04-28 23:03:16 浏览：264

78年产的安公丸现在市场价多少发布：2024-04-28 22:22:44 浏览：569

怎么采集传感器的数据发布：2024-04-28 22:21:33 浏览：887

数控加工能学到什么技术发布：2024-04-28 22:06:40 浏览：548

李佳奇有什么产品发布：2024-04-28 21:59:46 浏览：823

数据网络是哪里发布：2024-04-28 21:23:17 浏览：796

为什么代理商必须修改标题发布：2024-04-28 20:53:58 浏览：547