因mapjoin加载内存溢出而导致return code 3 问题描述:日志定位: 问题描述:
例行Hive作业报错
日志定位:
Starting to launch local task to process map join; maximum memory 5172101120
[2023-10-16 07:56:51,530] - INFO:…
Hive安装包下载地址
Index of /dist/hive
上传解压
[rootmaster opt]# cd /usr/local/
[rootmaster local]# tar -zxvf /opt/apache-hive-3.1.2-bin.tar.gz重命名及更改权限
mv apache-hive-3.1.2-bin hivechown -R hadoop:hadoop hive配置环境变量
#编辑配置
vi /etc/pro…
SELECT DATE_ADD(start_date, pos) dd FROM (SELECT ‘2022-03-01’ AS start_date, ‘2022-03-30’ AS end_date) temp LATERAL VIEW POSEXPLODE(SPLIT(SPACE(DATEDIFF(end_date, start_date)), ‘’)) t AS pos, val
1.分位数函数percentile
percentile(dau_days,0.5) as dau_days_50,
percentile(dau_days,0.6) as dau_days_60,
percentile(dau_days,0.8) as dau_days_80,2.窗口函数(带滚动窗口)
#滚动30d dauavg(dau) over(order bydtm rows between 29 PRECEDINGa…
c# string填充空格To align a float number with spaces, we can use String.Format() in C#, here is the example. 为了使浮点数与空格对齐,我们可以在C#中使用String.Format(),这是示例。 using System;namespace ConsoleApplication1{cl…
1.加载数据失败 hive> load data local inpath /home/user/hive.txt into table studentl> ;
FAILED: SemanticException [Error 10001]: Line 1:56 Table not found studentl
hive> load data local inpath /home/user/hive.txt into table student;
Loading data to…
1、case when --else end 语句中忘记写end,或者忘记把整个字句用as起别名,因为一个字段如果用case when条件语句计算后就是已经生成新的字段了,不能再用以前的字段名称。例如:
原来的字段是age,他的值是连续的int&…
Show相关的语句提供了一种查询Hive metastore的方法。可以帮助用户查询相关信息。
1 显示所有数据库 SCHEMAS和DATABASES的用法 功能一样
show databases;
show schemas; 2 显示当前数据库所有表/视图/物化视图/分区/索引
show tables;
SHOW TABLES [IN database_name]; --指…
报错
FAILED: SemanticException [Error 10265]: This command is not allowed on an ACID table test.log_test with a non-ACID transaction manager. Failed command: select * from log_test
解决办法
客户端
SET hive.txn.managerorg.apache.hadoop.hive.ql.lockmgr.D…
mapjoin:默认打开行列技术:join where > where join采用分区列存储(加快查询速度)压缩(减少磁盘IO)合理设置map个数 块大小:max(1, min(快大小,Long的最大值)) 块大小一般设置12…
hive substr用法
substr(string A, int start, int len) 其中start大於0,表示從前往后取數據,start小於0,表示從後往前取數據 if(matnr like 0000000000%, substring(matnr, -8), matnr) matnr,取倒數8個數 if(matnr like 0000000000%, subs…
ALTER TABLE table_name [PARTITION partitionSpec] SET FILEFORMAT file_format 分区和表都会存储了文件格式,都要改过来才正确。。 例子: ALTER TABLE foo SET FILEFORMATINPUTFORMAT “com.hadoop.mapred.DeprecatedLzoTextInputFormat”OUTPUTFORMAT…
分桶抽样查询 对于非常大的数据集,需要使用的是具有代表性的查询结果而不是全部。Hive可以通过对表进行分桶抽样来满足这个需求。
查询表stu_buck中的数据
hive (stu)> select * from stu_buck tablesample(bucket 1 out of 4 on id);tablesample
tablesample…
HIVE SQL 实现Join和group by 具体原理
1、JOIN
在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。MapReduce的过程如下: 2、 GROUP BY HIVE SQL 实现Join和group by 的分区原理
1、JOIN
在join操作中,两个…
一、问题
[rootlocalhost upload]# rpm -ivh MySQL-server-5.6.24a-1.rhel5.x86_64.rpm error: Failed dependencies: libaio.so.1()(64bit) is needed by MySQL-server-5.6.24a-1.rhel5.x86_64 libaio.so.1(LIBAIO_0.1)(64bit) is needed by MySQL-server-5.6.24a-1.rhel5.x8…
四个排序总结
order by全局排序reduce启动个数为一个sort by区内排序和distrbute by 结合使用reduce个数为多个distribute by同上reduce个数为多个cluster by当distribute by 和 sort by相同时 使用。reduce个数为多个
全局排序(Order By)
Order By&am…
6.1 创建新表 错误1:FAILED: SemanticException [Error 10006]: Line 1:63 Partition not found "20210919" 场景:在创建例行表时,报错。这种情况是先创建了多级分区表(date,product),…
文章目录Hive的分区与分桶Hive的分区分区的作用静态分区动态分区Hive的分桶分桶的作用分桶的定义分桶的抽样总结分区分桶抽样语句 tablesample(bucket x out of y)Hive的分区与分桶
Hive的分区
分区的代码标准格式: 通过建表时就定义分区(用…
1.背景
统计连续登录天数超过3天的用户,输出信息包括:用户id,登录天数,起始时间,结束时间;
2.准备数据
-- 建表
create table if not exists user_login_3days(user_id STRING,login_date date
);--插入…
一、原始数据
acctcontent1232313[{"name":"张三","code":"上海浦东新区89492jfkdaj\r\n福建的卡"...},{"name":"狂徒","code":"select * from table where aa1\r\n and a12"...},{...}]...…
进入控制台 hive 控制台显示当前使用的数据库 set hive.cli.print.current.dbtrue; 创建数据库 CREATE DATABASE [IF NOT EXISTS] test; 显示所有数据库 show databases; 切换数据库 use test; 显示所有的表 show tables; 显示表字段 desc 表名; Hive映射Hbase表,用…
一、Hive引擎包括:默认MR、tez、spark 在低版本的hive中,只有两种计算引擎mr, tez 在高版本的hive中,有三种计算引擎mr, spark, tez
二、Hive on Spark和Spark on Hive的区别 Hive on Spark:Hive既存储元数据又负责SQL的解析&…
项目场景:
错误由来
问题描述: java.lang.RuntimeException: Caught Hive MetaException attempting to get partition metadata by filter from Hive. You can set the Spark configuration setting spark.sql.hive.manageFilesourcePartitions to fa…
Hive视图使用 Hive的逻辑视图使用视图的目的视图规则视图的问题Hive中的视图使用定义视图查询视图详细查询引用视图修改视图查询删除视图 Hive的逻辑视图
视图是在SQL标准协议中是一种信息模式,是根据定义模式的基础表定义的视图表。 The views of the Information…
思路分析:通过为每一队分配一个id,join条件要求t1.num < t2.num实现相同两队只比一次
代码实现:
with t as (SELECT team_name,caseteam_nameWHEN 勇士 then 1WHEN 湖人 then 2WHEN 灰熊 then 3else 4end numFROM team
)SELECT t1.team_…
一、分组
1 group by 语句 group by 通常和聚合函数一起使用,按照一个或多个列的结果进行分组,任何对每个租执行聚合操作。 用group by时,select中只能用在group by中的字段和聚合函数。
--计算emp每个部门中每个岗位的最高薪水&#x…
文章目录准备工作安装Hive、MySQL和SqoopHive预操作启动MySQL、hadoop、hive创建临时表inner_user_log和inner_user_info使用Sqoop将数据从Hive导入MySQL启动hadoop集群、MySQL服务将前面生成的临时表数据从Hive导入到 MySQL 中查看MySQL中user_log或user_info表中的数据准备工…
在 Java Web 应用程序中,监听器(Listener)是一种强大的机制,用于在 Web 容器中监听和响应各种事件。通过监听器,我们可以在应用程序生命周期中执行特定的任务,如在应用启动时初始化资源,在会话创…
Hive 环境搭建与基本使用
Hive 安装包下载地址:https://dlcdn.apache.org/hive/
注:安装 Hive 前要先安装好 MySQL
1. MySQL 安装
MySQL 安装包下载地址:https://dev.mysql.com/downloads/mysql/archives/community/MySQL%20::%20Downloa…
SQL窗口函数详解 窗口函数的主要作用是对数据进行分组排序、求和、求平均值、计数等。 一、窗口函数的基本语法
<分析函数> OVER ([PARTITION BY <列清单>] ORDER BY <排序用列清单> [ROWS BETWEEN 开始位置 AND 结束位置])理解窗口函数的基本语法ÿ…
一、Hive基本概念1.1 hive是什么hive是基于hadoop的一个数仓分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据tel up down
1383838438 1345 1567
138383…
上传数据
load data local inpath (你的文本路径) overwrite into table 表明创建表格(内部表)
CREATE TABLE dmp_sdm_develop.tmp_exchange( session_id string, mobile string, device_info string)ROW FORMAT DELIMITE…
一.报错异常如下:
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:An exception was thrown while adding/validating class(es) : Column length too big for column PARAM_VALUE (max 21845); use BLOB or T…
导出到本地: insert overwrite local directory /app1/ai/nn/ row format delimited fields terminated by | select * from DIM_NE_EC 导出本地目录:’/app1/ai/nn/’ 分隔符: ‘|’
1. 行转列
SQL SERVER 2005 提供了行转列方法pivot(),以及列转行unpivot()方法;
但hive 里面没有自带pivot函数,以下为自己实现:
实现将原始表 转为目标表 11
select name
,sum(if(coursemath, score, null)) as math
,sum(if…
两个hive表left join时,由于关联字段类型不同导致的数据错误(bigint、string),结果会多出来一批数据。
select a.id as id1
,b.id as id2
from table1 a
left join table2 b
on a.id b.id
where a.id 1257829907772824682
-- 1…
CTAS -as select方式建表CREATE TABLE ctas_employee as SELECT * FROM employee;CTE (CTAS with Common Table Expression)CREATE TABLE cte_employee AS
WITH
r1 AS (SELECT name FROM r2 WHERE name Michael),
r2 AS (SELECT name FROM employee WHERE gender Male),
r3 …
比如table id int ,name string
我们可以
select * from table where id1
select * from table where name1
select * from table where namecast(1 as decimal)
这些都不会报错,因为涉及到了类型的自动转化。
但是 当我们有 nvl(1,1)时 结果类型时什么样呢…
关联查询
内连接:A∩B
select <字段列表> from A inner join B on A.关联字段 B.关联字段; 外连接:A / B
select <字段列表> from A left join B on A.关联字段 B.关联字段; select <字段列表> fro…
文章目录 MySQLHIVE数据源使用HiveServer2使用 HiveServer2 HA Zookeeper Clickhouse MySQL
填写参数
数据源:选择 MYSQL数据源名称:输入数据源的名称描述:输入数据源的描述IP 主机名:输入连接 MySQL 的 IP端口:输入…
关于 sql 语句的执行顺序网上有很多资料,但是大多都没进行验证,并且很多都有点小错误,尤其是对于 select 和 group by 执行的先后顺序,有说 select 先执行,有说 group by 先执行,到底它俩谁先执行呢&#x…
今天hive在执行的时候出现了报错,内容如下:
Caused by: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-2040810143-192.168.144.145-1612269795515:blk_1077591653_3851069 file/hbase/data/default/cycle_middle_data/c4…
背景
用jdbc连接hiveserver2报错,主要内容如下:
Required field client_protocol is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{set:hiveconf:hive.server2.thrift.resultset.default.fetch.size1000, use:databasedefault…
ranger配置hive出錯:Unable to connect repository with given config for hive 我一開始我以為是我重啟了ranger-admin導致ranger有點問題,後面排查之後發現是我之前把hiveserver2關閉了,所以只需要重新開啟hiveserver2即可
一、启动压缩
set hive.exec.compress.output=true;
set mapreduce.output.fileoutputformat.compress=true; 二、 输入合并
当有大量小文件时,启动合并,减少map数。
对应参数:
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;--默认开启…
select出正常的birthday及其它字段,异常的birthdayselect时 id_number、birthday 输出为空,不是更改
1.union分情况
select accountname, as birthday, dt, gender, as id_number, modify_time
from xsj_acc_real_identity_en
where dt 2022-07-10…
PS:Spark集群会启动Driver和Executor两种JVM进程。Driver为主控进程,负责创建Context,提交Job,并将Job转化成Task,协调Executor间的Task执行。而Executor主要负责执行具体的计算任务,将结果返回Driver
#设置这个spark任务名称
set spark.app.name=fun_seamless_newGP133…
报错: Exception thrown obtaining schema column information from datastore
org.datanucleus.exceptions.NucleusDataStoreException: Exception thrown obtaining schema column information from datastoreat org.datanucleus.store.rdbms.schema.RDBMSSchemaH…
自从hive 0.11.0 开始,加入了类似orcle的分析函数,很强大,可以查询到分组排序top值 使用方法跟oracle没有差别 贴个小例子 查询的是同一个操作下pv前十的用户 select
*
,row_number() OVER(PARTITION BY t3.action ORDER BY pv desc) AS flag…
Order By(全局排序)
Order By 用于结果集的排序。也可以称之为全局排序。对于 MR 任务来说,如果我们使用了 Order By 排序,意味着MR 任务只会有一个 Reducer 参与排序。,
在 Hive 中执行脚本时,我们可以通…
一、hiveSQL执行顺序
from … where … mapjoin … on … select(筛选有用字段) … group by ||… join … on … select(筛选输出字段) … having … distinct … order by … limit … union/union all|| 前是map阶段执行&…
org.apache.hadoop.ipc.RemoteException:User: xxx is not allowed to impersonate anonymous
下载driver-hive-jdbc-3.1.2-standalone
解决
修改hadoop 配置文件 etc/hadoop/core-site.xml,加入如下配置项
<property><name>hadoop.proxyuser.你的用户名.hosts…
文章目录 一.任务描述二. 解决 一.任务描述 Error while compiling statement: FAILED: HiveAccessControlException Permission denied: Principal [nameroot, typeUSER] does not have following privileges for operation CREATEFUNCTION [ADMIN PRIVILEGE on INPUT, ADMIN…
第1关:Hive -- 索引 ---创建mydb数据库
create database if not exists mydb;
---使用mydb数据库
use mydb;
---------- Begin ----------
---创建staff表
create table staff(
id int,
name string,
sex string)
row format delimited fields terminated by ,
stored…
hive on tez使用./bin/hive启动后一直卡住,无法进入命令行 使用TEZ作为Hive默认执行引擎时,需要在调用Hive CLI的时候启动YARN应用,预分配资源,这需要花一些时间,而使用MapReduce作为执行引擎时是在执行语句的时候才会…
错误代码:
在启动Hive元数据时,遇到了以下错误信息:
Caused by: java.sql.SQLException: null, message from server: "Host 192.168.252.101 is blocked because of many connection errors, unblock with mysqladmin flush-hosts&qu…
1. 前言
前一篇介绍了 Spring Security 入门的基础准备。从这篇开始我们来一步步窥探它是如何工作的。我们又该如何驾驭它。本篇将通过 Spring Boot 2.x 来讲解 Spring Security 中的用户主体UserDetails。以及从中找点乐子。
2. Spring Boot 集成 Spring Security
这个简直…
下载
cdh5.3.6 密码:bqgj
【cdh】 链接: https://pan.baidu.com/s/1ASwsAS2eRrV7WpymuQS3-w 密码: bqgj
官方下载地址
配置
1.sqoop-env-template.sh 去除template
//更新前
#Set path to where bin/hadoop is available
#export HADOOP_COMMON_HOME#Set path to where h…
在日常使用hive的时候,难免会遇到查询除某些字段的其余字段,比如使用开窗函数分组取第一条,那有没有一种方法能达到这个效果呢?答案是有的。
首先需要设置一个参数: set hive.support.quoted.identifiersNone; 然后指…
1.数据库操作
1.1 创建数据库
create database test comment Just for test location /abcd
with dbproperties(aaabbb);
comment后面指的是注释;location后面是数据库存放路径;dbproperties代表了数据库的属性
ps.避免要创建的数据库已经存在错误&…
查看目录下有什么文件信息
//list查看当前目录下有什么文件 ls //list -list 通过详细内容形式查看目录下的文件内容 ls -l 或 ll //查看指定目录下文件名字信息 ls 目录 //以详细列表形式查看指定目录下文件名字信息 ls -l 目录 //list all 查看全部文件,包括隐藏…
hive删除数据、删除分区、删除库表
-- 删除库
drop database if exists db_name;
-- 强制删除库
drop database if exists db_name cascade;-- 删除表
drop table if exists employee;-- 清空表
truncate table employee;
-- 清空表,第二种方式
insert overwr…
Hive2.3.9部署
解压安装改名
tar -zxvf apache-hive-2.3.9-bin.tar.gz -C /opt
cd /opt/
mv apache-hive-2.3.9-bin/ hive
cd hive
cd conf/
mv hive-env.sh.template hive-env.sh
vim hive-env.sh添加以下内容
export HADOOP_HOME/opt/hadoop
export HIVE_CONF_DIR/opt/hiv…
--压缩配置:
-- map/reduce 输出压缩(一般采用序列化文件存储)
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;--任务中间压缩
set hive.exec.compress.i…
Hive表更名问题——RENAME TABLE
ALTER TABLE table_name RENAME TO new_table_name 这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之,老的表名并未“释放”,对老表的更改会改变新表的数据? 不,数…
orc事务分桶表
CREATE TABLE table_name (id int,name string
)
CLUSTERED BY (id) INTO 2 BUCKETS STORED AS ORC
TBLPROPERTIES ("transactional""true","compactor.mapreduce.map.memory.mb""2048", …
order by
order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样,它只在一个reduce中进行所以数据量特别大的时候效率非常低。
而且当设置 :set hive.mapred.modestrict的时候不指定limit,执行select会报错…
解决方案:
set hive.msck.repair.batch.size1;
set hive.msck.path.validationignore;
MSCK REPAIR TABLE table_name;如果不能设置值,会报错。 Error: Error while processing statement: Cannot modify hive.msck.path.validation at runtime. It is …
在做数仓开发或指标开发时,是一个系统工程,要处理的问题非常多,经常使用到下面这些hive命令: 内部表转外部表
alter table ${tablename} set tblproperties (EXTERNALTrue); 外部表转内部表
alter table ${tablename} set tblpr…
🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的帮助🌸文…
转成 select customer_code,product_type
from temp.temp_xx
LATERAL VIEW explode(SPLIT(product_types,,)) table_tmp AS product_type
where customer_code K100515182
代码 现象 ParseException line 6:4 cannot recognize input near percent String COMMENT in column name or primary key or foreign key 23/11/13 11:52:57 ERROR org.apache.hadoop.hive.ql.Driver: FAILED: ParseException line 6:4 cannot recognize input near percent …
目录 1.表操作之4个by,分别是
2.Order by:全局排序
3.Cluster by
4.Distribute by :分区
5. Sort by :每个Reduce内部排序
6.操作练习
步骤一.创建表
步骤二.加载数据 步骤三.验证数据 1.表操作之4个by,分别是
order by 排序字段名
cluster by 分桶并排序字段名
dis…
项目场景:
需求:需要在之前上线的分区报表中新增加一列。 实现方案:
1、创建分区测试表并插入测试数据
drop table test_1;
create table test_1
(id string,
score int,
name string
)
partitioned by (class string)
row format delimit…
Hive的安装配置、初始化元数据、启动
1、解压hive到指定目录/usr/local/src 改名,将mysql的驱动包拷贝到hive的lib目录下 2、环境变量
1) vi /etc/profile export HIVE_HOME/usr/local/src/hive export PATH P A T H : PATH: PATH:HIVE_HOME/bin
echo…
1、条件过滤
left join 中 on 后面加条件 where 和 and 的区别
1、 on条件是在生成临时表时使用的条件,它不管and中的条件是否为真,都会保留左边表中的全部记录。2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有le…
目录 hive官方函数解释示例实战 hive官方函数解释
hive官网函数大全地址:添加链接描述
Return TypeNameDescriptionstructstruct(val1, val2, val3, …)Creates a struct with the given field values. Struct field names will be col1, col2, …structnamed_str…
group by导致倾斜 前文提到过,Hive中未经优化的分组聚合,是通过一个MapReduce Job实现的。Map端负责读取数据,并按照分组字段分区,通过Shuffle,将数据发往Reduce端,各组数据在Reduce端完成最终的聚合运算。…
测试所用到的数据参考:
原文链接:https://blog.csdn.net/m0_52606060/article/details/135080511 本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。
CBO优化
优化说明
CBO是指Cost based Optimizer,即基于计算成本的优化…
HiveServer2
基本概念介绍
1、HiveServer2基本介绍
HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve the results (a more detailed intro here). The current implementation, based on Thrift RPC, i…
hive 编译
issue
Failed to execute goal com.github.os72:protoc-jar-maven-plugin:3.5.1.1:run (default) on project hive-standalone-metastore: Error resolving artifact: com.google.protobuf:protoc:2.5.0: The following artifacts could not be resolved: com.goog…
目录 hive官方函数解释示例实战 hive官方函数解释
hive官网函数大全地址: hive官网函数大全地址
Return TypeNameDescriptionmapmap(key1, value1, key2, value2, …)Creates a map with the given key/value pairs.arraymap_values(Map<K.V>)Returns an un…
下载地址
Index of /dist
ubuntu安装hadoop集群
准备
IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3 上传
hadoop-3.3.5.tar.gz、jdk-8u391-linux-x64.tar.gz
JDK环境
node1、node2、node3三个节点
解压
tar -zxvf jdk-8u391-linux-x64.tar.gz…
Hive行列转换应用 文章目录Hive行列转换应用多行转多列多行转单列多列转多行单列转多行多行转多列
通过条件转换CASE WHEN函数实现多行转多列,即取出对应的数据放在对应的位置。例1:
写法一:
SELECTid,CASEWHEN id < 2 THEN aWHEN id …
关于Java连接Hive,Spark等服务的Kerberos工具类封装
idea连接服务器的hive等相关服务的kerberos认证注意事项
idea 本地配置,连接服务器;进行kerberos认证,连接hive、HDFS、Spark等服务注意事项:
本地idea连接Hadoo…
5.5.排序
5.5.1.Order By-全局排序 Order By:全局排序,一个reduce 1、使用 ORDER BY 子句排序 ASC(ascend): 升序(默认) DESC(descend): 降序 2、ORDER BY 子句在SELECT语句的结尾。…
Hive从小时分区中删除重复数据 一、小时分区数据去重二、重写小时分区数据 一、小时分区数据去重
小时分区数据去重后,写入到hive临时表中
with to_json_map as (
select distinct _track_id,time,distinct_id,to_json(lib) as lib,event,to_json(properties) as …
1、order by
hive中的order by 会对查询结果集执行一个全局排序,这也就是说所有的数据都通过一个reduce进行处理的过程,对于大数据集,这个过程将消耗很大的时间来执行。
2、sort by
hive的sort by 也就是执行一个局部排序过程。这可以…
-- 开启动态分区,写入数据时需要
set hive.optimize.sort.dynamic.partitiontrue;
-- 默认值是strict,默认要求分区字段必须有一个是静态的分区值
set hive.exec.dynamic.partition.modenonstrict;-- 控制在同一个sql中的不同的job是否可以同时运行。默认…
1 定义
窗口函数,又称分析函数
Analytic functions compute an aggregate value based on a group of rows. They differ from aggregate functions in that they return multiple rows for each group.
The group of rows is called a window and is defined by…
给user表的id字段增加主键约束
alter table user add primary key(id);
alter table user modify id int primary key;给user表的id字段删除主键约束
alter table user drop primary key; 外键约束
create table classes(id int primary key,name varchar(20)
);create tabl…
Hive默认创建的表字段分隔符为:\001(ctrl-A),也可以通过 ROW FORMAT DELIMITED FIELDS TERMINATED BY 指定其他字符,但是该语法只支持单个字符,如果你的分隔符是多个字符,则需要你自定义InputFormat来实现,…
流程流程:
Flink消费Kafka,逻辑处理后将实时流转换为表视图,利用HiveCataLog创建Hive表,将实时流 表insert进Hive,注意分区时间字段需要为 yyyy-MM-dd形式,否则抛出异常:java.time.format.DateTimeParseException: Text 20240111 could not be parsed 写入到hive分区表
strea…
1. 背景
最近在读《Java concurrency in practice》(Java并发实战),其中1.4节提到了Java web的线程安全问题时有如下一段话:
Servlets and JPSs, as well as servlet filters and objects stored in scoped containers like ServletContext and HttpSe…
1.配置Hive环境变量
[rootnode1 /]# vim /etc/profile在profile文件末尾添加以下内容(小技巧Go快速定位到最后) export HIVE_HOME/export/server/apache-hive-3.1.2-bin export PATH P A T H : PATH: PATH:HIVE_HOME/bin:$HIVE_HOME/sbin [rootnode1 /]# source /etc/profile2…
1.继承UDF类 2.重写evaluate方法 3.把项目打成jar包 4.hive中执行命令add jar /home/jrjt/dwetl/PUB/UDF/udf/GetProperty.jar; 5.创建函数create temporary function get_pro as jd.Get_Property//jd.jd.Get_Property为类路径; 自带函数 1. 字符串长度函数:…
Order By
order by 排序出来的数据是全局有序的,在hive mr引擎中将会只有1个reduce
Sort By
sort by 排序出来的数据是局部有序的,但是全局无序。即partition内部是有序的,但是partition与partition之间的数据是没有顺序关系的
distrib…
目录一、下载安装包并解压二、配置环境变量三、安装Mysql四、配置hive-site.xml五、配置hive-env.sh六、初始化数据库并启动hive七、启动和停止脚本七、问题记录一、下载安装包并解压
在官网下载最新版的hive包,apache-hive-3.1.3-bin.tar.gz,并进行解压
tar -zvx…
题库来源
题源
leetcode180. 连续出现的数字
题目请大家自己链接上的东西吧,下面是我写的解法。
with detail as (select 1 as id , 1 as num
union all select 2 as id , 1 as num
union all select 3 as id , 1 as num
union all select 4 as id , 2 as nu…
当前HIVE 不支持 not in 中包含查询子句的语法,形如如下的HQ语句是不被支持的: 查询在key字段在a表中,但不在b表中的数据 Sql代码 select a.key from a where key not in(select key from b) 可以通过left outer join进行查询,(假设B表中包…
hive中row_number() rank() dense_rank()的用法
一、函数说明
主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。
rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内)dense_rank() …
1.hive的join,不能将 t2 join t3 on t2.idt3.id外边加括号 hive的多个join,也不能加括号,antlr写的也太次了 2.hive的union,不能给 t2 union all t3中的t2.t3加上括号 3.hive的column别名,不能取已经存在的column 4.if…
第七章 试图 view1 create view shorter_join as select * from people join cart on(cart.people_idpeople.id) where firstnamedirk select lastname from shorter_join where id3 view2 create view if not exists shipments(time,part) comment time and parts for shipmen…
hivesql–窗口函数 xmind获取地址:https://pan.baidu.com/s/15hegE_7LpWfKLrOVDBIs1w 提取码:skux
补充:
一、分组排序后
first_value(colname) over(partition by … order by …):分组排序后第一行last_value(colname) over(partition b…
先开始创建表
create emp001,member_id,address,info放入数据
put emp001,Rain,id,31
put emp001, Rain, info:birthday, 1990-05-01
put emp001, Rain, info:industry, architect
put emp001, Rain, info:city, ShenZhen
put emp001, Rain, info:country, China
get emp001,…
一般维度变更用拉链,度量值变更可以用快照
--获取0-99
WITH a AS (SELECT explode(split(0,1,2,3,4,5,6,7,8,9,,)))
select cast(a1.col + 10*a2.col as int) from a a1 JOIN a a2 ON 1=1 拉链表,做出一段日历表,每天拿去inner join不等关联拉链表获取出当天切片。这样就能…
LAG 和 LEAD函数简介
Hive 中的 LAG 和 LEAD 函数时,通常用于在结果集中获取同一列在前一行(LAG)或后一行(LEAD)的值。这在分析时间序列数据、计算变化率或查找趋势时非常有用。以下是这两个函数的用法示例࿱…
往往用了很久的函数却只知道其单一的应用场景,本文将不断完善所遇到的好用的hive内置函数。
1.聚合函数或者求最大最小值函数搭配开窗函数使用可以实现滑动窗口 例:
SELECT event,time,session_id,COLLECT_LIST(event) OVER (PARTITION BY session_id …
背景
老子不知道hive在win10下怎么就这么多错.....不想用虚拟机,想换成mac,但是mac上没有实况19...真的是,我去年买了个表。 hive建表报错Column length too big for column PARAM_VALUE (max 21845); use BLOB or TEXT instead 解决方法&a…
文章目录 1 Hive概述2 Hive部署2.1 规划2.2 安装软件 3 Hive体验4 Hive客户端4.1 HiveServer2 服务4.2 DataGrip 5 问题集5.1 Could not open client transport with JDBC Uri 结语 1 Hive概述
Apache Hive是一个开源的数据仓库查询和分析工具,最初由Facebook开发&…
参考文档: https://juejin.cn/post/7141331245627080735?searchId20230920140418F85636A0735C03971F71
官网社区: https://issues.apache.org/jira/browse/HIVE-22275
In the case that multiple statements are run by a single Session before bein…
什么是内部表,外部表?
比较专业的定义: 外部表需要转为内部表,执行删除操作才能真的删表结构删表数据。否则drop table仅是删除了表数据,表结构还是存在的。
alter table tb_name set TBLPROPERTIES(EXTERNALfalse);…
mr中不指定reduce时默认是1,而hive会自动调节reduce数量,hive的切片是256,多少切片多少reduce.
1.order by 全局排序,只会有一个reduce
2.reduce 内部排序
可以指定reduce个数(分区个数)
1.sort by
每个reduce的内部排序
2.distribute by
分区,默认hash规则
3.cluster …
创建测试表
-- 測試數據集use default;
drop table if exists test3;
CREATE TABLE if not exists test3(id string,name string,create_date string,last_modified_date string,amount double,is_delete int
)partitioned by (dt string)
row format delimited fields term…
思路分析: (1)为每一次浏览找到他的上一次浏览时间 lag(view_timestamp, 1, 0) over(partition by user_id order by view_timestamp) as last_view_timestamp (2)为>60s的设置一个初始会话的标签flagif(vi…
背景:这是尚硅谷SparkSQL练习题,本文用HiveSQL进行了实现。 数据集:用户点击表,商品表,城市表 题目: ① 求每个地区点击量前三的商品; ② 在①的基础上,求出每个地区点击量前三的商品后&a…
文章目录 什么是HiveHive的数据存储Hive的系统架构MetastoreHive VS Mysql数据库 VS 数据仓库 Hive安装部署Hive的使用方式命令行方式JDBC方式 Set命令的使用Hive的日志配置Hive中数据库的操作Hive中表的操作 Hive中的数据类型基本数据类型复合数据类型ArrayMapStructStruct和M…
1、Spark On Hive的配置
1)、在Spark客户端配置Hive On Spark
在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:
配置hive的metastore路径
<configuration><property><name>hive.metastore.uris</name><v…
十五、安装HIVE
1.配置MetaStore
利用ambari创建的MySQL作为MetaStore,创建用户hive及数据库hive
mysql -uroot -p
CREATE DATABASE hive;
CREATE USER hive% IDENTIFIED BY lnydLNsy115;
GRANT ALL ON hive.* TO hive%;
FLUSH PRIVILEGES;2.安装
在服务中添加H…
1、虚表(测试表和数据) create test_table as
select a.cust_no, a.r_date, a.yqts from (
select 123 as cust_no, 20231101 as r_date, 0 as yqts
union all
select 123 as cust_no, 20231102 as r_date, 1 as yqts
union all
select 123 as cust_no, 20231103 as r_d…
1.使用hive的虚拟列排查错误案例
set hive.exec.rowoffsettrue;
SELECT –输入文件名 INPUT__FILE__NAME, –文件中的块内偏移量 BLOCK__OFFSET__INSIDE__FILE, –文件行偏移量 ROW__OFFSET__INSIDE__BLOCK, * from hdp_lbg_zhaopin_defaultdb.zzdetail where dt‘20201117’…
Hive特殊函数的使用 with ascastget_json_objectunix_timestampfrom_unixtime with as
在Hive中,WITH AS是一种子查询的用法,用于在查询的开头定义一个临时表达式。它的语法结构如下:
WITH [表达式名称] AS (子查询表达式
)在这个结构中,[表…
testa表(字段a)aaabbacccddddddaaatestb表(字段b)ab1. 使用likeconcat模糊配对
selecta.a
from testa a ,testb b
where a like concat(%,b.b,%)
group by a.a2. 使用locate函数
selecta.a
from testa a ,testb b
where locate(b.b,a.a)>0
group by a.a3. 使用instr函数
sel…
Hive 查询优化
-- 本地
set mapreduce.framework.namelocal;
set hive.exec.mode.local.autotrue;
set mapperd.job.trackerlocal;
-- yarn
set mapreduce.framework.nameyarn;
set hive.exec.mode.local.autofalse;
set mapperd.job.trackeryarn-- 向量模式
set hive.vectori…
原报错信息:
bin/beeline -u jdbc:hive2://hadoop05:10000 -n root
Connecting to jdbc:hive2://hadoop05:10000
23/07/14 08:15:00 [main]: WARN jdbc.HiveConnection: Failed to connect to hadoop05:10000
Could not open connection to the HS2 server. Please…
Hive的四种排序方法
hive排序方法,hive的排序方式 hive有四种排序方法: ORDER BY 、SORT BY 、DISTRIBUTE BY 、CLUSTER BY
0. 测试数据准备
--数据准备
WITH t_emp_info AS (
SELECT * FROM (VALUES (1001, 研发部, 16000 ), (1002, 市场部, 17000 ), (1003, 销售部, 1100…
单选题 题目1:按粒度大小的顺序,Hive数据被分为:数据库、数据表、桶和什么 选项: A 元祖 B 栏 C 分区 D 行 答案:C ------------------------------ 题目2:以下选项中,哪种类型间的转换是被Hive查询语言…
1 窗口函数语法 分析函数/专用窗口函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置) 常用的分析函数 常用的分析函数:sum()、max()、min()、avg()、count() 常用的专用窗口函数 专用窗口函数:row_number()、rank()、dens…
一、报错信息:hive> show databases;FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 解决办法:1.删除mysql中的元数据库(metastore࿰…
Hive中的排序通常涉及到order by 、sort by、distribute by 、cluster by
一、语法 selectcolumn1,column2, ...
from table
[where 条件]
[group by column]
[order by column]
[cluster by column| [distribute by column] [sort by column]
[limit [offset,] rows];
…
文章目录 1.数据准备2.双重group by实现 解决数据倾斜2.1 第一层加盐group by2.2 第二层去盐group by 1.数据准备
create table wordcount(a string) row format delimited fields terminated by ‘,’;
load data local inpath ‘opt/2.txt’ into table wordcount;
hive (…
I
限制外部表数据插入
set hive.insert.into.external.tablestrue;在Apache Hive中,通过INSERT INTO语句向外部表(External Table)插入数据时,有一些注意事项和限制。外部表是Hive中的一种特殊表,它与Hive管理的存储…
第 6 章:查询
6.1 基本语法及执行顺序
1、查询语句语法
select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list]]
[LIMIT n…
窗口函数的理解是hive函数里的一个高阶内容,把一些容易混淆的做个记录,以方便随时查看。
1:ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING 含义:
这个定义表示窗口范围从当前行的前任意多行开始(包括最早的行&a…
一、删除数据库
注意:Hive 与 MySQL 再删除数据库时是有一点不一样的。 Hive再删除数据库操作时,要保证该库下没有任何数据表!
删除一个空数据库,如果数据库下面有数据表,那么就会报错 drop database…
一、order by
order by后面不跟limit的话,order by会强制将reduce number设置成1,不加limit,会将所有数据sink到reduce端来做全局排序。多个reducer无法保证全局有序,但是因为只有一个reducer,就导致当输入数据规模较大时&#…
有时候join或者where两表时会报错: FAILED: SemanticException Cartesian products are disabled for safety reasons. If you know what you are doing, please sethive.strict.checks.cartesian.product to false and that hive.mapred.mode is not set to strict…
1. Impala是哪种处理的查询分析?
A. 实时 B. 内存计算 C. 海量处理 D. 批处理 答案:A 解析:Impala是由Cloudera开发的一个开源并行处理查询工具,它能够在Apache Hadoop上进行实时查询分析。使用Impala,用户可以执行低…
hive udf中经常要做判断四边形是否为矩形,所以写了这个udf如下: public class RectangularIsNot extends UDF {private static final int LNG_LAT_LENGTH = 2;private static final String SEPARATOR_POINT = "|";private
1.案例一
原sql:
select count(case when a.id in (select id from b) then 1 esle 0) from a;结果总共数据:727 耗时:
2020-12-28 17:38:31 INFO Cost time is: 568.197s
改造后:
select count(case when b.id is not null then 1 els…
Hive on Spark的小文件设置参数
参数调优 了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效…
一.引言
使用Hive执行 select count(*) from table 这种基础语法竟然爆出 GC overhead limit exceeded,于是开始了新的踩坑之旅 二.hive语句与报错
hive -e "select count(*) from $table where day between 20201101 and 20201130;"
统计一下总数结果…
建表插入数据
create table tmp_continous
(id STRING ,time DATETIME
);INSERT OVERWRITE TABLE tmp_continous
Select 201, 2017-01-01 00:00:00 union all
Select 201,2017-01-02 00:00:00 union all
Select 202,2017-01-02 00:00:00 union all
Select 202,2017-01-03 0…
一、Hive基本概念
1.1 hive是什么
hive是基于hadoop的一个数仓分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据 tel up down
1383838438 1345 1567
1…
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结 Hive on Mapreduce执行流…
索引 创建索引 create index employees_index on table employees(country) as bitmap #使用bitmap函数建立索引 with deferred rebuild idxproperties(creatordirk,created_atsome_time) in table employees_index_table partitioned by (country,name) co…
不同类型比较 不同类型的数字float double做比较,要注意0.2float大于0.2double 可以cat(0.2 as float) order by and sort by hive的order by是全部数据的排序,在一个reduce中处理排序,默认升序。效率比较低,通常跟limit一起用 可…
1. 整库导出为一个SQL文件
database"<your-database-name>"cat << EOF > $database.sql
drop database if exists $database cascade;
create database if not exists $database;
use $database;
EOFfor table in $(beeline -n hadoop -u jdbc:hive2…
查看除了sample_date以外的所有字段信息
set hive.support.quoted.identifiersnone; select (sample_date)?.
from test.table where sample_date20230713;查看除了sample_date 和 msgtype以外的所有字段信息
set hive.support.quoted.identifiersnone; select (sample_dat…
omnidata-hive-connector介绍
omnidata-hive-connector是一种将大数据组件Hive的算子下推到存储节点上的服务,从而实现近数据计算,减少网络带宽,提升Hive的查询性能。目前支持Hive on Tez。omnidata-hive-connector已在openEuler社区开源。 …
Sqoop1最新版举例 1.环境说明2.import-all-tables3.query4.字段类型支持 1.环境说明
还是之前的环境:
# 不必要信息不再贴出
# JDK
[roottcloud ~]# java -version
java version "1.8.0_251"
# MySQL
[roottcloud ~]# mysql -V
mysql Ver 14.14 Distrib…
思路分析: (1)按照user_id及create_date 分组求消费金额total_amount (2)开窗计算同user_id下的累计销售金额sum(total_amount) over(partition by user_id order by create_date ROWS BETWEEN UNBOUNDED PRECEDING AN…
Apache Hive
在标题为“Information Platforms and the Rise of the Data Scientist”的文章一文中,Jeff Hammerbacher把“信息平台”描述为“企业摄取(ingest)、处理(process)、生成(generate)信息的行为”与“帮助加速从经验数据中学习”的“中心”。 在Facebook…
1、背景:通过业务埋点数据,统计用户在页面的停留时间
样例数据,样例数据存入表tmp,
有如下字段用户uid、动作时间戳time、页面名称pn、动作名称action
SELECT 12345 AS uid, 1695613731020 AS time, 搜索 AS pn, click AS acti…
一、字符串截取函数:substr,substring
语法: substr(string A, int start),substring(string A, int start)
返回值: string
说明:返回字符串A从start位置到结尾的字符串
举例: hive> select substr(abcde,3); cde hive…
Hive分组排序取topN的sql查询示例 要在Hive中实现分组排序并取每组的前N条记录,可以使用 ROW_NUMBER() 窗口函数结合 PARTITION BY 和 ORDER BY 子句。 以下是一个示例SQL查询,用于选择每个部门中工资最高的前3名员工:
SELECT department, e…
查询语句 查询的一些例子: 1.query hive> SELECT name, subordinates[0] FROM employees; John Doe Mary Smith Mary Smith Bill King Todd Jones NULL 2.expression hive> SELECT upper(name), salary, deductions["Federal Taxes"], round(salary…
Hive(from -> on -> join -> where -> group by -> having -> select -> order by -> limit)Spark(Master,Driver,TaskManager)Flink语法优化 1. 列裁剪(只选择需要的列…
from hive_table;hive_table from hive_table where name xxx or name yyy from hive_table where name ["xxx", "yyy"] from hive_table where name LIKE *_xxx hive_db where name like "???dm?*" hive_column where table.name …
背景
spark任务读取hive表,查询字段为小写,但Hive表字段为大写,无法读取数据
问题错误: 如何解决呢? In version 2.3 and earlier, when reading from a Parquet data source table, Spark always returns null for any column …
统计分钟级别的视频在线用户数
1、原始数据如下: uid vid starttime endtime select aa as uid,v00l as vid,2023-10-25 12:00 as starttime,2023-10-2512:15 as endtime union select bb as uid,v002 as vid,2023-10-25 12:05 as starttime,2023-10-25 12:19 …
hive对库表的常用命令
查看数据库 :
show database;切换数据库:
use database_name;查看所有的表:
show tables;查询表结构:
desc table_name;创建数据库:
create database database_name;删除数据库
drop database if exists database_name;
dro…
HQL刷题 50道
尚硅谷HQL刷题网站 答案
1.查询累积销量排名第二的商品
select sku_id
from (select sku_id, dense_rank() over (order by total desc) rnfrom (select sku_id, sum(sku_num) totalfrom order_detailgroup by sku_id) t1) t2
where rn 2;2.查询至少连续三天下…
一、如何把csv文件导入Hive
(1) 在Hive中建立与csv相对应的表
create table if not exists tmp.tmp_wenxin_20231123
(redeem_code_id string comment
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ,
STORED AS TEXTFILE;创建了一张名为tmp_wenxin_20231123的hive表&am…
一、运行一下算圆周率的测试代码,看下报错
cd /home/data_warehouse/module/hadoop-3.1.3/share/hadoop/mapreduce hadoop jar hadoop-mapreduce-examples-3.1.3.jar pi 1000 1000
后面2个数字参数的含义: 第1个1000指的是要运行1000次map任务 …
使用hive2连接进行添加数据是报错:
[08S01][1] Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. User: zhangflink is not allowed to impersonate zhangflink 有些文章说需要修…
1 概述 2 创建数据库 create database if not exists test_database
comment "this is my first db"
with dbproperties (createdByAllen);3 描述数据库信息
describe 可以简写为desc extended 可以展示更多信息
describe database test_database;
describe databa…
目录 hive官方函数解释示例实战 hive官方函数解释
hive官网函数大全地址: hive官网函数大全地址
Return TypeNameDescriptionarrayarray(value1, value2, …)Creates an array with the given elements.booleanarray_contains(Array, value)Returns TRUE if the a…
Hive中的排序通常涉及到order by 、sort by、distribute by 、cluster by
一、语法 selectcolumn1,column2, ...
from table
[where 条件]
[group by column]
[order by column]
[cluster by column| [distribute by column] [sort by column]
[limit [offset,] rows];
…
简介 Sqoop(SQL to Hadoop)是一个开源工具,用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式,将数据从关系型数据库导入到Hadoop集群进行分析,并支持将Hadoop集群中的数据导出到关系型数据库中。本…
一、背景
要利用gpt产生的存放在es种的日志表做统计分析,通过hive建es的映射表,将es的数据拉到hive里面。 在最初的时候同事写的是全量拉取,某一天突然任务报错,但是没有错误日志一直报:Task Transitioned from NEW t…
一、几种排序和区别
Hive 支持两种主要的排序方式:ORDER BY 和 SORT BY。除此之外,还有 DISTRIBUTE BY 和 CLUSTER BY 语句,它们也在排序和数据分布方面发挥作用。
1. ORDER BY
ORDER BY 在 Hive 中用于对查询结果进行全局排序࿰…
在Web开发中,HTTP(Hypertext Transfer Protocol)是一种用于传输数据的协议,它用于浏览器和Web服务器之间的通信。当你在浏览器中访问一个网页时,浏览器向Web服务器发送HTTP请求,然后Web服务器返回HTTP响应。…
1. Insert 导出 1)将查询的结果导出到本地 hive (default)> insert overwrite local directory /opt/module/hive/data/export/student select * from student5;
Automatically selecting local only mode for query
Query ID atguigu_20211217153118_31119102-…
Hive SQL 语法大全
基于语法描述说明
CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION] path;
SELECT expr, ... FROM tbl ORDER BY col_name [ASC | DESC]
(A | B | C)如上语法,在语法描述中出现: [],表示可选,如上[LOCATI…
文章目录 Spark On Hive的原理及配置配置步骤在代码中集成Spark On Hive Spark分布式SQL执行原理及配置配置步骤在代码中集成Spark JDBC ThriftServer 总结 Spark On Hive的原理及配置
Spark本身是一个执行引擎,而没有管理metadate的能力,当我们在执行S…
docker本地搭建spark yarn hive环境 前言软件版本准备工作使用说明构建基础镜像spark on yarn模式构建on-yarn镜像启动on-yarn集群手动方式自动方式 spark on yarn with hive(derby server)模式构建on-yarn-hive镜像启动on-yarn-hive集群手动方式自动方式 常用示例spark执行sh脚…
在本地开发机装本地模拟环境,或者能远程调试,可以参考Spark如何在生产环境调试输出dataframe日志,最好有一个开关来控制,正式上线时,把开关关了来提升速度
if (isDebug) {dataframeDF.show(10)
}dataframe的输出&…
窗口函数语法结构:
分析函数() over(partition by 分组列名 order by 排序列名 rows between 开始位置 and 结束位置)
开窗函数和聚合函数区别: 聚合函数会对一组值进行计算并返回一个值,常见的比如sum(),count(),ma…
metatool 使用说明
usage: metatool-dryRun Perform a dry run ofupdateLocation changes.When runwith the dryRun optionupdateLocation changes aredisplayed but not persisted.dryRun is valid only with theupdateLocation option.-ex…
Hive切换引擎(MR、Tez、Spark)
1. MapReduce计算引擎(默认)
set hive.execution.enginemr;2. Tez引擎
set hive.execution.enginetez;1. Spark计算引擎
set hive.execution.enginespark;
hive-3.1.2分布式搭建:
一、上传解压配置环境变量
在官网或者镜像站下载驱动包
华为云镜像站地址:
hive:Index of apache-local/hive/hive-3.1.2
mysql驱动包:Index of mysql-local/Downloads/Connector-J # 1、解压 tar -zx…
1.进入 hive 数据库: hive 2.查看hive中的所有数据库: show databases; 3.用 default 数据库 use default; 4.查看所有的表 show tables; 5.查询 book 表结构: desc book ; 6.查询 book 表数据 select * from book; 7.创建 shop 数据库 creat…
一、bigint类型
报错:
Unable to get value BigNumber(16) from database resultset显示kettle认为此应该是decimal类型(kettle中是TYPE_BIGNUMBER或称BigNumber),但实际hive数据库中是big类型。 修改kettle源码解决:
kettle中java.sql.Types到kettle…
一、目的
在运行HiveSQL时,执行报错
tatement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask 二、在yarn上查看任务报错
The required MAP capability is more than the supported max container capability in t…
语法分别如下: cache table table_name as (select ... from ...
)with table_name as (select ... from ...
)需要注意,with语法只相当于一个视图,并不会将数据缓存;如果要将数据缓存,需要使用cache table语法。 参考…
查了很多资料发现网上很多文章都是转发和抄袭,有些问题。这里分享一个自己项目中使用的行转列例子,供大家参考。代码如下:
SELECTmy_id,nm_cd_map[A] AS my_cd_a,nm_cd_map[B] AS my_cd_b,nm_cd_map[C] AS my_cd_c,nm_num_map[A] AS my_num_…
Hive表使用ORC格式和SNAPPY压缩建表语句示例
下面是一个sql示例:
-- 创建数据库
CREATE DATABASE IF NOT EXISTS mydatabase;-- 使用数据库
USE mydatabase;-- 创建分区表,使用ORC文件格式,采用Snappy压缩算法
CREATE TABLE IF NOT EXISTS …
hive-site.xml配置文件
<property><name>hive.server2.thrift.bind.host</name><value>node1</value>
</property>hive.server2.thrift.bind.host: This property determines the host address to which the HiveServer2 Thrift service …
1.CONCAT与CONCAT_WS函数
1.1 CONCAT函数
-- concat(str1, str2, ... strN) - returns the concatenation of str1, str2, ... strN or concat(bin1, bin2, ... binN) - returns the concatenation of bytes in binary data bin1, bin2, ... binN
Returns NULL if any argum…
Hive SQL操作
7、修改表
表重命名
alter table score4 rename to score5;修改表属性值
# 修改内外表属性
ALTER TABLE table_name SET TBLPROPERTIES("EXTERNAL""TRUE");
# 修改表注释
ALTER TABLE table_name SET TBLPROPERTIES (comment new_commen…
1.概述 在离线数仓处理通过HQL业务数据时,经常会遇到行转列或者列转行之类的操作,就像concat_ws之类的函数被广泛使用,今天这个也是经常要使用的拓展方法。
2.explode函数
2.1 函数语法
-- explode(a) - separates the elements of array …
select * from ( select back_receipt_nos,order_no,reject_no from ods_one.ods_us_wms_reject_order_match_all_d where order_no 10150501385980001 ) t1 lateral view explode(split(t1.back_receipt_nos, ,)) t as back_receipt_no where 1 1;
问题集合
Q:终端启动hive时报错:/tmp/hive on HDFS should be writable? A:hdfs dfs -chmod 777 /tmp/hive
Q:hive: unable to create database path file…错误 A:在hive-site.xml里面添加以…
Hive运行卡死 再次强调 hive:小兄弟,没想到吧,咱可不是随便的人。😄 那么,这次又遇见了hadoop问题,问题描述是这样的。
hive> insert into test values(1, nucty, 男);
Query ID atguigu_202403241754…
你可以尝试关闭主机校验 修改hive安装目录下conf/hive-site.xml,将hive.server2.enable.doAs设置成false
<property><name>hive.server2.enable.doAs</name><value>false</value><description>Setting this property to true will have H…