使用Python通过Hive的Streaming来写UDF的一些记录

最近使用Hive来统计数据，用了pyhs2来实现查询，但是有些复杂的处理比如，自定义对域名的处理等，不能通过hql来实现，发现能够使用udf。

Java来实现Hive的写法

package jsl.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public final class DomainRoot extends UDF {
    public Text evaluate(Text s) {
        if (s == null) {return null;}
        String tmp = s.toString();
        tmp = this.getDomainRoot(tmp);
        return new Text(tmp);
    }

    private String getDomainRoot(String domain) {
        throw NoneImplementException("xxxx");
    }
}

如果Java的UDF需要当成常用的，不用每次add可以注册到Hive中，

ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java中加入

registerUDF("domain_root", UDFParseUrl.class, false);并重新编译hive即可

下面来说说重点，通过Streaming用Python来写处理。
关于Streaming的基础内容：

约束：首先必须add file到hive中（当python中引用了其他如自己写的模块时，也需要一并add进去）
其次非常不幸,在单独的一个查询中，不能够使用UDAF的函数如sum()
再次不得为中间结果数据使用cluster by或distribute by

注意：对于优化查询，使用cluster by或distribute by 和sort by一起非常重要

posted on 2014-09-12 11:41 Hallelujah 阅读(2147) 评论(0) 编辑收藏引用

只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理

使用Python通过Hive的Streaming来写UDF的一些记录

导航

统计

常用链接

留言簿(1)

随笔分类(15)

随笔档案(14)

最新随笔

搜索

最新随笔

最新评论

阅读排行榜

评论排行榜