本文为云栖社区原创内容,未经同意不得转发。归来乐乎,查看越多

等效于

Hive中的TRANSFORM:使用脚本完成Map/Reduce

转自:
http://www.coder4.com/archives/4052

率先来看一下多少:

hive> select * from test;
OK
1       3
2       2
3       1

比如,大家要出口每一列的md5值。在日前的hive中是不曾那几个udf的。

大家看一下Python的代码:

#!/home/tops/bin/python

import sys
import hashlib

for line in sys.stdin:
    line = line.strip()
    arr = line.split()
    md5_arr = []
    for a in arr:
        md5_arr.append(hashlib.md5(a).hexdigest())
    print "\t".join(md5_arr)

在Hive中,使用脚本,首先要将他们加入:

add file /xxxx/test.py

接下来,在调用时,使用TRANSFORM语法。

SELECT 
    TRANSFORM (col1, col2) 
    USING './test.py' 
    AS (new1, new2) 
FORM 
    test;

此间,大家利用了AS,内定输出的好八个列,分别对应到哪个列名。若是省略那句,则Hive会将第4个tab前的结果作为key,前边别的作为value。

此处有二个小坑:有的时候候,大家构成INSERT
OVEQashqaiWOdysseyITE使用上述TRANSFORM,而指标表,其分割副也许不是\t。但是请牢记:TRANSFORM的划分符号,传入、传出脚本的,永恒是\t。不要思考外面其余的撤销合并符号!

终极,解释一下MAP、REDUCE。

澳门新葡8455手机版,在一部分Hive语句中,大家兴许会看出SELECT MAP (…) USING ‘xx.py’那样的语法。

不过,在Hive中,MAP、REDUCE只但是是TRANSFORM的小名,Hive不保证一定会在map/reduce中调用脚本。看看官方文书档案是怎么说的:

Formally, MAP ... and REDUCE ... are syntactic transformations of SELECT TRANSFORM ( ... ). In other words, they serve as comments or notes to the reader of the query. BEWARE: Use of these keywords may be dangerous as (e.g.) typing "REDUCE" does not force a reduce phase to occur and typing "MAP" does not force a new map phase!

之所以、混用map
reduce语法关键字,以致会孳生混淆,所以提议大家仍然都用TRANSFORM吧。

友情提示:借使脚本不是Python,而是awk、sed等系列内置命令,能够平素运用,而不用add
file。

若果表中有MAP,AWranglerRAY等复杂类型,怎么用TRANSFORM生成?

例如:

CREATE TABLE features
(
    id BIGINT,
    norm_features MAP<STRING, FLOAT> 
);

答案是,要在本子的出口中,对新鲜字段根据HDFS文件中的格式输出就能够。

诸如,以地点的表结构为例,每行输出应为:

1^Ifeature1^C1.0^Bfeature2^C2.0

其中I是tab键,这是TRANSFORM要求的分割符号。B和^C是Hive存储时MAP类型的KV分割符。

另外,在Hive的TRANSFORM语句的时候,要留心AS中增添项目证明:

SELECT TRANSFORM(stuff)
USING 'script'
AS (thing1 INT, thing2 MAP<STRING, FLOAT>)

付出作业能够见到进行陈设(全体拓展后的视图):

SELECT*frommytable1whereidin(selectidfrommytable2wherevalue=
mytable1.value);

Hive Python Streaming的法规及写法

http://www.tuicool.com/articles/vmumUjA

第四弹 – CTE,VALUES,SEMIJOIN

ODPS1.0不援助顶层UNION。ODPS2.0能够援救,譬喻

UDTF

  • Hive中UDTF编写和动用

6.
财富文件会被下载到试行钦定命令的劳作目录,能够利用文件接口张开./bar.txt文件。

SELECT*frommytable1whereidin(selectidfrommytable2)ORvalue>0;

UDAF

  • Hive
    udaf开荒入门和平运动行进度详解
  • Hive通用型自定义聚合函数(UDAF)

上边用的是perl。那实际不止是言语接济的扩展,一些简练的功能,awk,
python, perl, shell
都帮助直接在指令里面写剧本,没有须求写脚本文件,上传财富等进度,开辟进度更简约。别的,由于当下大家总结集群上从不php和ruby,所以那二种脚本不援助。

当SUBQUECRUISERY中有起码一行数据时候,重临TRUE,否则FALSE。NOT
EXISTS的时候则相反。近期只扶助含有correlated WHERE条件的子查询。EXISTS
SUBQUE昂CoraY/NOT EXISTS SUBQUE途乐Y完毕的诀即使改换为LEFT SEMI JOIN只怕LEFT
ANTI JOIN

Hive中的TRANSFORM:自定义Mapper和Reducer完成Map/Reduce

/**
 * Mapper.
 */
public interface Mapper {
  /**
   * Maps a single row into an intermediate rows.
   * 
   * @param record
   *          input record
   * @param output
   *          collect mapped rows.
   * @throws Exception
   *           on error
   */
  void map(String[] record, Output output) throws Exception;
}

可以将一列拆分为多列

应用样例:

public class ExecuteMap {

    private static final String FULL_PATH_CLASS = "com.***.dpop.ods.mr.impl.";

    private static final Map<String, Mapper> mappers = new HashMap<String, Mapper>();

    public static void main(String[] args) throws Exception {
        if (args.length < 1) {
            throw new Exception("Process class must be given");
        }

        new GenericMR().map(System.in, System.out,
                getMapper(args[0], Arrays.copyOfRange(args, 1, args.length)));
    }

    private static Mapper getMapper(String parserClass, String[] args)
            throws ClassNotFoundException {
        if (mappers.containsKey(parserClass)) {
            return mappers.get(parserClass);
        }

        Class[] classes = new Class[args.length];
        for (int i = 0; i < classes.length; ++i) {
            classes[i] = String.class;
        }
        try {
            Mapper mapper = (Mapper) Class.forName(FULL_PATH_CLASS + parserClass).getConstructor(classes).newInstance(args);
            mappers.put(parserClass, mapper);
            return mapper;
        } catch (ClassNotFoundException e) {
            throw new ClassNotFoundException("Unknown MapperClass:" + parserClass, e);
        } catch (Exception e) {
            throw new  ClassNotFoundException("Error Constructing processor", e);
        }

    }
}

MR_USING=" USING 'java -Xmx512m -Xms512m -cp ods-mr-1.0.jar:hive-contrib-2.3.33.jar com.***.dpop.ods.mr.api.ExecuteMap "

COMMAND="FROM dw_rtb.event_fact_adx_auction "
COMMAND="${COMMAND} INSERT overwrite TABLE dw_rtb.event_fact_mid_adx_auction_ad PARTITION(yymmdd=${CURRENT_DATE}) SELECT transform(search_id, print_time, pthread_id, ad_s) ${MR_USING} EventFactMidAdxAuctionAdMapper' as search_id, print_time, pthread_id, ad_s, ssp_id WHERE $INSERT_PARTITION and original = 'exinternal' "

要么用map,reduce的重大字会让逻辑显得清楚部分

SELECT * from mytable1 a LEFT SEMI JOIN mytable2 b on a.id=b.id;

性能

只是,假设mytable第22中学有其余为NULL的列,则 not
in表明式会为NULL,导致where条件不树立,无数据再次来到,此时与LEFT ANTI
JOIN分裂。

原标题:马克斯Compute重装上战地 第五弹 – SELECT TRANSFO奥迪Q7

马克斯Compute接纳基于ODPS2.0的SQL引擎,对DML实行了大幅度扩展,提升了易用性和包容性,基本化解了上述难题。

地点的语句造出一份有50行的数据表,值是从1到50;
测量试验时候的数据就足以方便造出来了。效率类似轻松,但在此以前是odps的贰个痛点,未有实惠的章程造数据,就不实惠测验以及初学者的读书和斟酌。当然那也足以因而udtf来贯彻,可是急需复杂的流水生产线:步入ide->写udtf->打包->add
jar/python->create function->试行->drop function->drop
resource。

SELECT*frommytable1 aLEFTSEMIJOINmytable2 bona.id=b.id;

澳门新葡8455手机版 1

澳门新葡8455手机版 2

主编:

其三弹 –
复杂类型

  1. 子进度和父进度是五个经过,而UDTF是单线程的,假诺总括占比比较高,数据吞吐量相当的小,能够采取服务器的多核天性
  2. 多少的传导通过更底层的种类调用来读写,成效比java高
  3. SELECT
    TRANSFORM匡助的一些工具,如awk,是natvie代码完毕的,和java比较理论上或许会有质量优势。

此意义首如若有利从别的数据库系统迁移,对于信用贷款买,大家照旧引入您使用JOIN,明显表暗中表示图

标注

SELECT*frommytable1wherenotexists(select*frommytable2whereid=
mytable1.id);`

或者

SELECT*fromsales_detailwheredsin(selectdtfromsales_date);

  1. 兴妖作怪造数据

SELECT*frommytable1whereexists(select*frommytable2whereid=
mytable1.id);`

  1. 能够串联着用,使用 distribute by和 sort by对输入数据做预管理

支持IMPLICIT JOIN

上次向您介绍了CTE,VALUES,SEMIJOIN,本篇向你介绍马克斯Compute对别的脚本语言的支撑

第四弹 –
CTE,VALUES,SEMIJOIN

天性上,SELECT TRANSFORM 与UDTF
春兰秋菊。经过各个情景相比较测量检验,数据量十分小时,大大多光景下select
transform有优势,而数据量大时UDTF有优势。由于transform的支付特别便利,所以select
transform特别适合做adhoc的数据剖判。

再次回到左表中的数据,当join条件建构,也等于mytable第11中学某行的id在mytable2的保有id中冒出过,此行就封存在结果集中

只怕使用python

小节

select transform (key, value) using “perl -e ‘while($input =
<STDIN>){print $input;}'” from src;

UNION后LIMIT的语义变化。

SELECT TRANSFORM 的优势:

原始ODPS也帮衬IN SUBQUE兰德酷路泽Y,但是不帮助correlated条件,MaxCompute帮衬

  1. Using
    子句钦赐的是要实行的通令,而非财富列表,那点和大好些个的MaxCompute
    SQL语法不均等,这么做是为了和hive的语法保持卓绝。

  2. 输入从stdin传入,输出从stdout传出;

  3. 能够配备分隔符,暗许使用 \t 分隔列,用换行分隔行;

  4. 能够自定义reader/writer,但用内置的reader/writer会快相当多

  5. 行使自定义的能源(脚本文件,数据文件等),能够动用 set
    odps.sql.session.resources=foo.sh,bar.txt;
    来钦命。能够钦点三个resource文件,用逗号隔离(由此分歧意resource名字中包涵逗号和支行)。其它大家还提供了resources子句,能够在using
    子句前面钦点 resources ‘foo.sh’, ‘bar.txt’
    来钦定能源,两种艺术是等价的(参照他事他说加以考察“用odps跑测量试验”的例证);

当中子查询中的where value =
mytable1.value就是四个correlated条件,原有ODPS对于这种既援引了子查询中源表,由引用了外围查询源表的表明式时,会告知错误。马克斯Compute协助这种用法,那样的过滤条件实在构成了SEMI
JOIN中的ON条件的一有个别。

理论上OpenMRAV4的模型都可以映射到地方的测算进程。注意,使用map,reduce,select
transform那多少个语法其实语义是一致的,用哪些关键字,哪个种类写法,不影响一贯进度和结果。

场景3

澳门新葡8455手机版 3

例如:

谈论上select transform能促成的效率udtf都能实现,可是select
transform比udtf要灵活得多。且select
transform不止援救java和python,还支持shell,perl等其他脚本和工具。
且编写的长河要简明,特别契合adhoc功效的落实。举多少个例子:

好多DBMS系统中,如MySQL,Hive等,UNION后一旦有CLUSTESportage BY, DIST科雷傲IBUTE
BY, SORT BY, O牧马人DER
BY恐怕LIMIT子句,其意义于与近期全体UNION的结果,并不是UNION的末尾一道。ODPS2.0在set
odps.sql.type.system.odps2=true;的时候,也应用此作为。比方:

Select
transform允许sql用户钦赐在服务器上进行一句shell命令,将上游数据各字段用tab分隔,每条记下一行,逐行输入shell命令的stdin,并从stdout读取数据作为出口,送到下游。Shell命令的本来面目是调用Unix的局地utility,因而能够运行其余的剧本解释器。富含python,java,php,awk,ruby等。

SEMI JOIN

马克斯Compute基于ODPS2.0新一代的SQL引擎,明显提高了SQL语言编译进度的易用性与语言的表明工夫。大家在此推出马克斯Compute(ODPS2.0)重装参加比赛类别文章

例如:

  1. 用odps跑测试

返回

  1. UDTF是有项目,而Transform的子进度基于stdin/stdout传输数据,全体数据都看作string管理,因此transform多了一步类型转换;
  2. Transform数据传输依赖于操作系统的管道,而日前管道的buffer唯有4KB,且无法设置,
    transform读/写 空/满 的pipe会导致进程被挂起;
  3. UDTF的常量参数能够不用传输,而Transform不可能利用这些优化。

一部分时候表的列相当多,策画数据的时候希望只插入部分列的多寡,此时得以用插队列表功用

以那件事例是为着表达,比相当多java的utility可以一贯拿来运作。java和python即便有现存的udtf框架,可是用select
transform编写更简约,何况没有需求相当正视,也远非格式供给,以致可以兑现离线脚本拿来一直就用。

INSERT… VALUES…
有多少个范围,values必须是常量,但是部分时候希望在插入的数量中举办部分归纳的运算,这一年能够利用马克斯Compute的VALUES
TABLE效用,如下:

澳门新葡8455手机版 4

0

马克斯Compute(原ODPS)是Ali云自己作主研究开发的富有产业界超越水平的布满式大数目处理平台,
特别在公司内部获得广泛应用,支撑了多少个BU的着力业务。
马克斯Compute除了无休止优化质量外,也从事于提高SQL语言的用户体验和表明技能,升高广大ODPS开垦者的生产力。

假如mytable第22中学的全数id都不为NULL,则等效于

首先弹 – 善用马克斯Compute编写翻译器的荒谬和警示

马克斯Compute基于ODPS2.0新一代的SQL引擎,显然进步了SQL语言编写翻译进程的易用性与语言的表明本事。大家在此推出马克斯Compute(ODPS2.0)重装参加比赛类别小说

澳门新葡8455手机版 5

马克斯Compute扶助SQL规范的CTE。能够巩固SQL语句的可读性与推行功能。

澳门新葡8455手机版 6

LEFT SEMI JOIN

利用场景比方

帮忙新的SELECT语序

ca88会员登录 ,小结

实施后在,马克斯Compute Project
Explorer中得以找到新成立的表,并看到values中的数据已经插入到表中,如下:

下面的言辞仅仅是把value原样输出,然则纯熟awk的用户,从此过上了写awk脚本不写sql的生活

SELECT*frommytable1 aLEFTANTIJOINmytable2 bona.id=b.id;

马克斯Compute基于ODPS2.0的SQL引擎,提供了SELECT
TRANSFORM效能,能够映珍视帘简化对台本代码的援引,与此同一时候,也拉长了质量!大家推荐你尽或者使用SELECT
TRANSFORM。

在那之中M1, M2,
M4三个遍布式职务分别对应相应八个输入表,双击M2能够见到中切实实践的DAG(在DAG中重复双击能够回到),如下

该命令包容Hive的Transform功能,能够参见Hive的文书档案。一些必要注意的点如下:

LEFT ANTI JOIN

  1. awk 用户会很欣赏那些效能

回到左表中的数据,当join条件不树立,也正是mytable第11中学某行的id在mytable2的有所id中从不出现过,此行就保存在结果聚集

其三弹 – 复杂类型

举办后,马克斯Compute Project
Explorer中找到目标表,并见到values中的数据现已插入,如下:

此文中采取马克斯Compute Studio作展示,首先,安装马克斯Compute
Studio,导入测量试验马克斯Compute项目,成立工程,建设构造二个新的马克斯Compute脚本文件, 如下

澳门新葡8455手机版 7

澳门新葡8455手机版 8

原有ODPS也支持[NOT] IN
SUBQUEKugaY不作为JOIN条件,举个例子出现在非WHERE语句中,恐怕固然在WHERE语句中,但无计可施转换为JOIN条件。马克斯Compute如故支撑这种用法,可是此时因为不恐怕转移为SEMI
JOIN而必须落成运营三个单身的功课来运营SUBQUEQashqaiY,所以不协助correlated条件。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图