金沙js娱乐场Hive的Transform和UDF

6.
资源文件会被下载到实行内定命令的职业目录,能够动用文件接口展开./bar.txt文件。

SELECT*FROMtable1JOINtable2ONtable1.id = table2.id;

Hive中的TRANSFORM:使用脚本达成Map/Reduce

转自:
http://www.coder4.com/archives/4052

先是来看一下数量:

hive> select * from test;
OK
1       3
2       2
3       1

一经,我们要出口每一列的md5值。在现阶段的hive中是未有那一个udf的。

小编们看一下Python的代码:

#!/home/tops/bin/python

import sys
import hashlib

for line in sys.stdin:
    line = line.strip()
    arr = line.split()
    md5_arr = []
    for a in arr:
        md5_arr.append(hashlib.md5(a).hexdigest())
    print "\t".join(md5_arr)

在Hive中,使用脚本,首先要将他们步入:

add file /xxxx/test.py

下一场,在调用时,使用TRANSFORM语法。

SELECT 
    TRANSFORM (col1, col2) 
    USING './test.py' 
    AS (new1, new2) 
FORM 
    test;

那边,大家选择了AS,内定输出的大多个列,分别对应到哪个列名。假使省略那句,则Hive会将首个tab前的结果作为key,前边其他作为value。

此地有贰个小坑:一时候,大家结合INSERT
OVEPAJEROW普拉多ITE使用上述TRANSFORM,而目的表,其分割副大概不是\t。不过请牢记:TRANSFORM的撤销合并符号,传入、传出脚本的,永恒是\t。不要考虑外面其他的细分符号!

谈起底,解释一下MAP、REDUCE。

在有的Hive语句中,大家恐怕拜访到SELECT MAP (…) USING ‘xx.py’那样的语法。

而是,在Hive中,MAP、REDUCE只可是是TRANSFORM的外号,Hive不保障一定会在map/reduce中调用脚本。看看官方文书档案是怎么说的:

Formally, MAP ... and REDUCE ... are syntactic transformations of SELECT TRANSFORM ( ... ). In other words, they serve as comments or notes to the reader of the query. BEWARE: Use of these keywords may be dangerous as (e.g.) typing "REDUCE" does not force a reduce phase to occur and typing "MAP" does not force a new map phase!

就此、混用map
reduce语法关键字,以致会孳生混淆,所以建议我们要么都用TRANSFORM吧。

友谊提醒:假诺脚本不是Python,而是awk、sed等种类内置命令,能够直接选择,而不用add
file。

设若表中有MAP,A兰德EvoqueRAY等繁杂类型,怎么用TRANSFORM生成?

例如:

CREATE TABLE features
(
    id BIGINT,
    norm_features MAP<STRING, FLOAT> 
);

答案是,要在本子的出口中,对新鲜字段依照HDFS文件中的格式输出就能够。

举个例子,以地点的表结构为例,每行输出应该为:

1^Ifeature1^C1.0^Bfeature2^C2.0

其中I是tab键,这是TRANSFORM要求的分割符号。B和^C是Hive存储时MAP类型的KV分割符。

别的,在Hive的TRANSFORM语句的时候,要注意AS中增加项目证明:

SELECT TRANSFORM(stuff)
USING 'script'
AS (thing1 INT, thing2 MAP<STRING, FLOAT>)
  1. 支撑任何脚本语言

SELECT*frommytable1 aLEFTANTIJOINmytable2 bona.id=b.id;

UDTF

  • Hive中UDTF编写和接纳
  1. awk 客户会很开心这一个意义

第二弹 –
新的骨干数据类型与内建函数

UDAF

  • Hive
    udaf开垦入门和周转进程详解
  • Hive通用型自定义聚合函数(UDAF)

金沙js娱乐场 1

等效于

Hive Python Streaming的规律及写法

http://www.tuicool.com/articles/vmumUjA

属性上,SELECT TRANSFORM 与UDTF
平分秋色。经过多种场景比较测验,数据量较时辰,大繁多景色下select
transform有优势,而数据量大时UDTF有优势。由于transform的开销尤其方便人民群众,所以select
transform特别适合做adhoc的数码剖判。

大部DBMS系统中,如MySQL,Hive等,UNION后假诺有CLUSTE奥迪Q5 BY, DIST奥迪Q3IBUTE
BY, SORT BY, OENCOREDER
BY或许LIMIT子句,其效率于与前边全数UNION的结果,并不是UNION的末了一块。ODPS2.0在set
odps.sql.type.system.odps2=true;的时候,也选择此行为。举例:

Hive中的TRANSFORM:自定义Mapper和Reducer完成Map/Reduce

/**
 * Mapper.
 */
public interface Mapper {
  /**
   * Maps a single row into an intermediate rows.
   * 
   * @param record
   *          input record
   * @param output
   *          collect mapped rows.
   * @throws Exception
   *           on error
   */
  void map(String[] record, Output output) throws Exception;
}

能够将一列拆分为多列

接纳样例:

public class ExecuteMap {

    private static final String FULL_PATH_CLASS = "com.***.dpop.ods.mr.impl.";

    private static final Map<String, Mapper> mappers = new HashMap<String, Mapper>();

    public static void main(String[] args) throws Exception {
        if (args.length < 1) {
            throw new Exception("Process class must be given");
        }

        new GenericMR().map(System.in, System.out,
                getMapper(args[0], Arrays.copyOfRange(args, 1, args.length)));
    }

    private static Mapper getMapper(String parserClass, String[] args)
            throws ClassNotFoundException {
        if (mappers.containsKey(parserClass)) {
            return mappers.get(parserClass);
        }

        Class[] classes = new Class[args.length];
        for (int i = 0; i < classes.length; ++i) {
            classes[i] = String.class;
        }
        try {
            Mapper mapper = (Mapper) Class.forName(FULL_PATH_CLASS + parserClass).getConstructor(classes).newInstance(args);
            mappers.put(parserClass, mapper);
            return mapper;
        } catch (ClassNotFoundException e) {
            throw new ClassNotFoundException("Unknown MapperClass:" + parserClass, e);
        } catch (Exception e) {
            throw new  ClassNotFoundException("Error Constructing processor", e);
        }

    }
}

MR_USING=" USING 'java -Xmx512m -Xms512m -cp ods-mr-1.0.jar:hive-contrib-2.3.33.jar com.***.dpop.ods.mr.api.ExecuteMap "

COMMAND="FROM dw_rtb.event_fact_adx_auction "
COMMAND="${COMMAND} INSERT overwrite TABLE dw_rtb.event_fact_mid_adx_auction_ad PARTITION(yymmdd=${CURRENT_DATE}) SELECT transform(search_id, print_time, pthread_id, ad_s) ${MR_USING} EventFactMidAdxAuctionAdMapper' as search_id, print_time, pthread_id, ad_s, ssp_id WHERE $INSERT_PARTITION and original = 'exinternal' "

第四弹 – CTE,VALUES,SEMIJOIN

其实的逻辑执行各类是 FROM->WHERE->GROUY
BY->HAVING->SELECT->O昂CoraDER
BY->LIMIT,前多少个是后贰个的输入,与专门的学业的书写语序实际并分化样。很多轻便混淆的标题,都以经过孳生的。比方order
by中只可以援引select列表中变化的列,并非拜谒FROM的源表中的列。HAVING能够访问的是
group by key和聚合函数。SELECT的时候,假如有GROUP BY,就不得不访谈group
key和聚合函数,并不是FROM中源表中的列。

  1. UDTF是有档期的顺序,而Transform的子进度基于stdin/stdout传输数据,全体数据都作为string管理,由此transform多了一步类型转变;
  2. Transform数据传输依赖于操作系统的管道,而日前管道的buffer只有4KB,且无法安装,
    transform读/写 空/满 的pipe会导致进程被挂起;
  3. UDTF的常量参数能够不用传输,而Transform不能够利用这几个优化。

FROMsrc tWHEREvalue >0GROUPBYkeyHAVING sum(value) >100SELECTkey,
max(value)ORDERBYkeyLIMIT100;

地点的语句造出一份有50行的数据表,值是从1到50;
测量检验时候的数码就足以方便造出来了。作用类似轻巧,但以前是odps的二个痛点,未有有利的主意造数据,就不实惠测量检验以及初学者的就学和琢磨。当然那也足以由此udtf来促成,不过急需复杂的流水生产线:步向ide->写udtf->打包->add
jar/python->create function->实行->drop function->drop
resource。

1

本条例子是为了验证,比非常多java的utility能够直接拿来运作。java和python即便有现存的udtf框架,但是用select
transform编写更简明,並且无需额外依赖,也从未格式供给,乃至能够达成离线脚本拿来平昔就用。

金沙js娱乐场 2

金沙js娱乐场 3

对于在values中并未有制订的列,能够看来取缺省值为NULL。插入列表作用不必然和VALUES一同用,对于INSERT
INTO … SELECT…, 相同能够采取。

  1. 兴风作浪造数据

重回左表中的数据,当join条件构建,也正是mytable第11中学某行的id在mytable2的全体id中冒出过,此行就保存在结果聚焦

马克斯Compute(原ODPS)是阿里云自己作主研究开发的有着产业界当先水平的布满式大数目管理平台,
非常在公司内部得到分布应用,支撑了七个BU的为主业务。
马克斯Compute除了不停优化质量外,也从事于提高SQL语言的客商体验和表明技术,升高周围ODPS开垦者的生产力。

因为WHERE中含有了OXC90,导致不或者转变为SEMI JOIN,会单独运转作业实行子查询

或者

一部分时候表的列相当多,计划数据的时候希望只插入部分列的数据,此时可以用插队列表作用

上次向你介绍了CTE,VALUES,SEMIJOIN,本篇向您介绍马克斯Compute对别的脚本语言的援助

2

上述作用能够使用SELECT TRANSFORM来贯彻

SELECT * from mytable1 a LEFT SEMI JOIN mytable2 b on a.id=b.id;

  1. 用odps跑测试

马克斯Compute(原ODPS)是Ali云自己作主研究开发的保有产业界当先水平的布满式大额处理平台,
越发在集团内部获得遍布应用,支撑了多少个BU的主导工作。
马克斯Compute除了不停优化品质外,也从事于提高SQL语言的客商体验和表明技术,提升广大ODPS开辟者的生产力。

上边用的是perl。那实际不仅仅是言语帮忙的扩大,一些简便的功能,awk,
python, perl, shell
都辅助直接在指令里面写剧本,没有必要写脚本文件,上传能源等经过,开辟进度更简便易行。别的,由于近来大家总计集群上向来不php和ruby,所以那二种脚本不帮衬。

除了,针对马克斯Compute客户的特点,也正是供给在非常复杂的业务场景下,援救对己大批量数码的管理,马克斯Compute提供了故意的本子格局和参数化视图,就要下三次为你介绍。

小结

当中子查询中的where value =
mytable1.value正是八个correlated条件,原有ODPS对于这种既引用了子查询中源表,由援引了外围查询源表的表明式时,会告诉错误。马克斯Compute支持这种用法,那样的过滤条件实在构成了SEMI
JOIN中的ON条件的一有个别。

大概用map,reduce的要紧字会让逻辑显得清楚部分

其三弹 –
复杂类型

交给作业能够看看进行安排(全体进展后的视图):

除此以外在管理分区表的时候,也可能有异样管理

  1. Using
    子句内定的是要施行的一声令下,而非财富列表,那或多或少和大多数的MaxCompute
    SQL语法不均等,这么做是为着和hive的语法保持万分。

  2. 输入从stdin传入,输出从stdout传出;

  3. 能够安插分隔符,暗中同意使用 \t 分隔列,用换行分隔行;

  4. 能够自定义reader/writer,但用内置的reader/writer会快比相当多

  5. 行使自定义的财富(脚本文件,数据文件等),可以采用 set
    odps.sql.session.resources=foo.sh,bar.txt;
    来钦命。能够钦命七个resource文件,用逗号隔绝(因而分化意resource名字中带有逗号和分行)。其余大家还提供了resources子句,能够在using
    子句前边钦定 resources ‘foo.sh’, ‘bar.txt’
    来钦赐能源,三种方法是等价的(参照他事他说加以考察“用odps跑测量试验”的事例);

正值开辟新项目,供给给三个小数目表计划些基本数据,可是并未有INSERT …
VALUES
语句,不能够把多少和成立表的DDL放在一同保养,只可以另用一些本子,调用ODPS命令行图谋数据。。。

  • 注一,USING
    前面的字符串,在后台是一向起的子进度来调起命令,未有起shell,所以shell的少数语法,如输入输出重定向,管道等是不援助的。假若客商须要能够以
    shell 作为命令,真正的吩咐作为数据输入,仿照效法“兴风作浪造数据”的例证;
  • 注二,JAVA 和 PYTHON 的实际路线,能够从JAVA_HOME 和 PYTHON_HOME
    情状变量中收获作业;

_急需写多个复现的SQL,
从七个表中读取数据,有个别之间做Join,有个别之间做Union,生成人中学间数据又要Join,
末了索要输出多张表,最终写成了n层嵌套的子查询,自身都看不懂了。并且一样的询问,在分化的子查询中有重复。为了保障方便,把纷纷的话语拆成八个语句,不过开掘各样语句都供给独自提交,排队,何况要将中间结果写到本来无需的临时表,在后头的言语中再读出来,慢了比比较多。。。

其次弹 – 新的着力数据类型与内建函数

金沙js娱乐场 4

Select
transform允许sql客户钦命在服务器上执行一句shell命令,将上游数据各字段用tab分隔,每条记下一行,逐行输入shell命令的stdin,并从stdout读取数据作为出口,送到下游。Shell命令的面目是调用Unix的片段utility,由此得以运营其余的台本解释器。包涵python,java,php,awk,ruby等。

金沙js娱乐场 5

马克斯Compute基于ODPS2.0的SQL引擎,提供了SELECT
TRANSFORM作用,能够明确简化对剧本代码的引用,与此同一时候,也压实了品质!咱们引入您尽也许选拔SELECT
TRANSFORM。

第四弹 –
CTE,VALUES,SEMIJOIN

MaxCompute基于ODPS2.0新一代的SQL引擎,显明晋级了SQL语言编译进度的易用性与语言的表明工夫。大家在此推出马克斯Compute(ODPS2.0)重装上沙场类别小说

实践的成效相当于

金沙js娱乐场 6

马克斯Compute基于ODPS2.0新一代的SQL引擎,鲜明进级了SQL语言编写翻译进度的易用性与语言的表明技巧。大家在此推出马克斯Compute(ODPS2.0)重装上沙场体系文章

利用场景比方

0

  1. 子进度和父进度是五个经过,而UDTF是单线程的,假诺总计占比相比较高,数据吞吐量十分的小,可以采用服务器的多核性子
  2. 多少的传导通过更底层的连串调用来读写,作用比java高
  3. SELECT
    TRANSFORM支持的一些工具,如awk,是natvie代码实现的,和java相比较理论上大概会有质量优势。

setodps.sql.type.system.odps2=true;SELECTexplode(array(1,3))AS(a)UNIONALLSELECTexplode(array(0,2,4))AS(a)ORDERBYaLIMIT3;

摘要:
MaxCompute(原ODPS)是Ali云自己作主研究开发的富有产业界抢先水平的布满式大数目管理平台,
特别在集团内部得到遍布应用,支撑了三个BU的中坚业务。
马克斯Compute除了不停优化品质外,也从事于提高SQL语言的顾客体验和表明本领,进步相近ODPS开垦者的生产力。

金沙js娱乐场 7

SELECT TRANSFORM 介绍

金沙js娱乐场 8

  1. 能够串联着用,使用 distribute by和 sort by对输入数据做预管理

VALUES

select transform (key, value) using “perl -e ‘while($input =
<STDIN>){print $input;}'” from src;

SELECT*fromsales_detailwheredsin(selectdtfromsales_date);

此时此刻odps select transform完全协作了hive的语法、功用和行为,富含input/output row format 以及
reader/writer。Hive上的台本,抢先53%足以直接拿来运维,部分脚本只须求经过轻巧退换就能够运营。别的我们相当多作用都用比hive更加高实施成效的言语
(C++) 重构,用以优化质量。

编写翻译此脚本,能够洞察试行铺排如下

批评上OpenMLX570的模型都得以映射到下边包车型大巴图谋进程。注意,使用map,reduce,select
transform那多少个语法其实语义是一样的,用哪些关键字,哪类写法,不影响一贯进程和结果。

则等效于

第一弹 – 善用马克斯Compute编写翻译器的荒唐和警戒

SELECT*frommytable1 aLEFTSEMIJOINmytable2 bona.id=b.id;

金沙js娱乐场 9

例如:

金沙js娱乐场,本文为云栖社区原创内容,未经允许不得转发。回到微博,查看越多

LEFT SEMI JOIN

作者:隐林

场景3

此文中运用马克斯Compute Studio作体现,首先,安装马克斯Compute
Studio,导入测验MaxCompute项目,创建工程,建构三个新的马克斯Compute脚本文件, 如下

例如:

性能

里面M1, M2,
M4多个分布式职务分别对应相应三个输入表,双击M2能够见见中实际推行的DAG(在DAG中再度双击能够回去),如下

其三弹 – 复杂类型

selectabs(-1),length(‘abc’),getdate();

原标题:马克斯Compute重装参与竞赛 第五弹 – SELECT TRANSFOPAJERO

支撑顶层UNION

金沙js娱乐场 10

原有ODPS也支持[NOT] IN
SUBQUE帕杰罗Y不作为JOIN条件,比方现身在非WHERE语句中,可能纵然在WHERE语句中,但不能转移为JOIN条件。马克斯Compute仍旧支撑这种用法,不过此时因为不可能调换为SEMI
JOIN而必需贯彻运行一个独立的课业来运转SUBQUE奥迪Q3Y,所以不帮助correlated条件。

发表评论

电子邮件地址不会被公开。 必填项已用*标注