Hive中DDL数据定义之管理表与外部表

2024-05-13 12:48

本文主要是介绍Hive中DDL数据定义之管理表与外部表,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

管理表

1.理论

默认创建的表都是所谓的管理表,有时也被称为内部表。因为这种表,Hive会(或多或少地)控制着数据的生命周期。Hive默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如,/user/hive/warehouse)所定义的目录的子目录下。    当我们删除一个管理表时,Hive也会删除这个表中数据。管理表不适合和其他工具共享数据。

2.案例

  1)普通创建表



  • create table if not exists student(
     


  • id int, 
     


  • name string
     


  • )
     


  • row format delimited fields terminated by '\t'
     


  • stored as textfile
     


  • location '/user/hive/warehouse/student';

     

  2)根据查询结果创建表(查询的结果会添加到新创建的表中)



  • create table if not exists student1
     


  • as select id, name from student;

     

  3)根据已经存在的表结构创建表

create table if not exists student2 like student;

  4)查询表的类型

desc formatted student;

      

 

外部表

1.理论

因为表是外部表,所有Hive并非认为其完全拥有这份数据。删除该表并不会删除掉这份数据(在HDFS中仍然存在),不过描述表的元数据信息会被删除掉(在mysql中的元数据)

2.管理表和外部表的使用场景

每天将收集到的网站日志定期流入HDFS文本文件。在外部表(原始日志表)的基础上做大量的统计分析,用到的中间表、结果表使用内部表存储,数据通过SELECT+INSERT进入内部表。

3.案例

分别创建部门和员工外部表,并向表中导入数据

  1)原始数据

dept.txt



  • 10        ACCOUNTING        1700
     


  • 20        RESEARCH        1800
     


  • 30        SALES            1900
     


  • 40        OPERATIONS        1700

     

emp.txt



  • 7369        SMITH        CLERK        7902        1980-12-17        800.00                20
     


  • 7499        ALLEN        SALESMAN        7698        1981-2-20        1600.00        300.00        30
     


  • 7521        WARD        SALESMAN        7698        1981-2-22        1250.00        500.00        30
     


  • 7566        JONES        MANAGER        7839        1981-4-2        2975.00                20
     


  • 7654        MARTIN        SALESMAN        7698        1981-9-28        1250.00        1400.00        30
     


  • 7698        BLAKE        MANAGER        7839        1981-5-1        2850.00                30
     


  • 7782        CLARK        MANAGER        7839        1981-6-9        2450.00                10
     


  • 7788        SCOTT        ANALYST        7566        1987-4-19        3000.00                20
     


  • 7839        KING        PRESIDENT                1981-11-17        5000.00                10
     


  • 7844        TURNER        SALESMAN        7698        1981-9-8        1500.00        0.00        30
     


  • 7876        ADAMS        CLERK        7788        1987-5-23        1100.00                20
     


  • 7900        JAMES        CLERK        7698        1981-12-3        950.00                30
     


  • 7902        FORD        ANALYST        7566        1981-12-3        3000.00                20
     


  • 7934        MILLER        CLERK        7782        1982-1-23        1300.00                10

     

  2)建表语句

创建部门表



  • create external table if not exists default.dept(
     


  • deptno int,
     


  • dname string,
     


  • loc int
     


  • )
     


  • row format delimited fields terminated by '\t';

     

创建员工表



  • create external table if not exists default.emp(
     


  • empno int,
     


  • ename string,
     


  • job string,
     


  • mgr int,
     


  • hiredate string, 
     


  • sal double, 
     


  • comm double,
     


  • deptno int)
     


  • row format delimited fields terminated by '\t';

     

  3)导入数据



  • load data local inpath '/opt/package/hive/txt/dept.txt' into table dept;
     


  • load data local inpath '/opt/package/hive/txt/emp.txt' into table emp;

     

  4)查看表格式化数据

 

这篇关于Hive中DDL数据定义之管理表与外部表的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/985748

相关文章

Spring Security 前后端分离场景下的会话并发管理

《SpringSecurity前后端分离场景下的会话并发管理》本文介绍了在前后端分离架构下实现SpringSecurity会话并发管理的问题,传统Web开发中只需简单配置sessionManage... 目录背景分析传统 web 开发中的 sessionManagement 入口ConcurrentSess

Java整合Protocol Buffers实现高效数据序列化实践

《Java整合ProtocolBuffers实现高效数据序列化实践》ProtocolBuffers是Google开发的一种语言中立、平台中立、可扩展的结构化数据序列化机制,类似于XML但更小、更快... 目录一、Protocol Buffers简介1.1 什么是Protocol Buffers1.2 Pro

MySQL 临时表与复制表操作全流程案例

《MySQL临时表与复制表操作全流程案例》本文介绍MySQL临时表与复制表的区别与使用,涵盖生命周期、存储机制、操作限制、创建方法及常见问题,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随小... 目录一、mysql 临时表(一)核心特性拓展(二)操作全流程案例1. 复杂查询中的临时表应用2. 临时

MySQL 数据库表与查询操作实战案例

《MySQL数据库表与查询操作实战案例》本文将通过实际案例,详细介绍MySQL中数据库表的设计、数据插入以及常用的查询操作,帮助初学者快速上手,感兴趣的朋友跟随小编一起看看吧... 目录mysql 数据库表操作与查询实战案例项目一:产品相关数据库设计与创建一、数据库及表结构设计二、数据库与表的创建项目二:员

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热

MySQL数据脱敏的实现方法

《MySQL数据脱敏的实现方法》本文主要介绍了MySQL数据脱敏的实现方法,包括字符替换、加密等方法,通过工具类和数据库服务整合,确保敏感信息在查询结果中被掩码处理,感兴趣的可以了解一下... 目录一. 数据脱敏的方法二. 字符替换脱敏1. 创建数据脱敏工具类三. 整合到数据库操作1. 创建服务类进行数据库

MySQL中处理数据的并发一致性的实现示例

《MySQL中处理数据的并发一致性的实现示例》在MySQL中处理数据的并发一致性是确保多个用户或应用程序同时访问和修改数据库时,不会导致数据冲突、数据丢失或数据不一致,MySQL通过事务和锁机制来管理... 目录一、事务(Transactions)1. 事务控制语句二、锁(Locks)1. 锁类型2. 锁粒

Spring Boot项目如何使用外部application.yml配置文件启动JAR包

《SpringBoot项目如何使用外部application.yml配置文件启动JAR包》文章介绍了SpringBoot项目通过指定外部application.yml配置文件启动JAR包的方法,包括... 目录Spring Boot项目中使用外部application.yml配置文件启动JAR包一、基本原理

Qt中实现多线程导出数据功能的四种方式小结

《Qt中实现多线程导出数据功能的四种方式小结》在以往的项目开发中,在很多地方用到了多线程,本文将记录下在Qt开发中用到的多线程技术实现方法,以导出指定范围的数字到txt文件为例,展示多线程不同的实现方... 目录前言导出文件的示例工具类QThreadQObject的moveToThread方法实现多线程QC

Linux之UDP和TCP报头管理方式

《Linux之UDP和TCP报头管理方式》文章系统讲解了传输层协议UDP与TCP的核心区别:UDP无连接、不可靠,适合实时传输(如视频),通过端口号标识应用;TCP有连接、可靠,通过确认应答、序号、窗... 目录一、关于端口号1.1 端口号的理解1.2 端口号范围的划分1.3 认识知名端口号1.4 一个进程