共计 2108 个字符,预计需要花费 6 分钟才能阅读完成。
下载 Pig 链接: pig.apache.org
目前最新版本 0.12.1,我使用的版本是 0.12.0
准备工作:
1.安装 Pig 前,要安装部署好 Hadoop 分布式集群。
2.下载好 pig,版本自选
3.安装位置,我选择的是 Namenode 主机
Pig 安装与配置教程 http://www.linuxidc.com/Linux/2013-04/82785.htm
Pig 安装部署及 MapReduce 模式下测试 http://www.linuxidc.com/Linux/2013-04/82786.htm
Pig 安装及本地模式测试, 体验 http://www.linuxidc.com/Linux/2013-04/82783.htm
Pig 的安装配置与基本使用 http://www.linuxidc.com/Linux/2013-02/79928.htm
Hadoop Pig 进阶语法 http://www.linuxidc.com/Linux/2013-02/79462.htm
Hadoop 搭建教程学习笔记 http://www.linuxidc.com/Linux/2013-03/81669.htm
安装步骤 :
(一) 下载并解压 pig 安装包
(二) 编辑环境变量
1. 设置 PATH,增加指向 hadoop/bin
2. 这是 PIG_CLASSPATH 环境变量
3. 设置 PATH,增加指向 pig/bin
4. 添加 JAVA_HOME 环境变量
编辑好后重新登陆,使得环境变量生效。
(三) 测试启动 grunt shell
执行一些命令行,检测部署成功
测试 Pig latin 语句
常用语句:
LOAD : 指出载入数据的方法
FOREACH:逐行扫描进行某种处理
FILTER:过滤行
DUMP:把结果显示到屏幕
STORE:把结果保存到文件
通常书写执行顺序:
LOAD ——〉FOREACH——〉STORE
测试文件内容如下:词条组,词条
Setp1. LOAD 格式化装载数据
A =LOAD ‘/user/criss/in/pig_test.txt’ USING PigStorage(‘,’) as (code_group,work);
DUMP A;
更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2014-07/104039p2.htm
Step2. FOREACH 求词组词条数
B =FOREACH(GROUP A BY code_group) GENERATE group AS code_group,COUNT(A);
DUMP B;
Step3. 把结果保存到文件
STORE B INTO ‘/user/criss/out/pig_B_res.txt’ USING PigStorage(‘ ‘);
关于更多的 Pig 语法:可参考:http://www.linuxidc.com/Linux/2013-02/79462.htm
下载 Pig 链接: pig.apache.org
目前最新版本 0.12.1,我使用的版本是 0.12.0
准备工作:
1.安装 Pig 前,要安装部署好 Hadoop 分布式集群。
2.下载好 pig,版本自选
3.安装位置,我选择的是 Namenode 主机
Pig 安装与配置教程 http://www.linuxidc.com/Linux/2013-04/82785.htm
Pig 安装部署及 MapReduce 模式下测试 http://www.linuxidc.com/Linux/2013-04/82786.htm
Pig 安装及本地模式测试, 体验 http://www.linuxidc.com/Linux/2013-04/82783.htm
Pig 的安装配置与基本使用 http://www.linuxidc.com/Linux/2013-02/79928.htm
Hadoop Pig 进阶语法 http://www.linuxidc.com/Linux/2013-02/79462.htm
Hadoop 搭建教程学习笔记 http://www.linuxidc.com/Linux/2013-03/81669.htm
安装步骤 :
(一) 下载并解压 pig 安装包
(二) 编辑环境变量
1. 设置 PATH,增加指向 hadoop/bin
2. 这是 PIG_CLASSPATH 环境变量
3. 设置 PATH,增加指向 pig/bin
4. 添加 JAVA_HOME 环境变量
编辑好后重新登陆,使得环境变量生效。
(三) 测试启动 grunt shell
执行一些命令行,检测部署成功
测试 Pig latin 语句
常用语句:
LOAD : 指出载入数据的方法
FOREACH:逐行扫描进行某种处理
FILTER:过滤行
DUMP:把结果显示到屏幕
STORE:把结果保存到文件
通常书写执行顺序:
LOAD ——〉FOREACH——〉STORE
测试文件内容如下:词条组,词条
Setp1. LOAD 格式化装载数据
A =LOAD ‘/user/criss/in/pig_test.txt’ USING PigStorage(‘,’) as (code_group,work);
DUMP A;
更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2014-07/104039p2.htm