阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop2.0 lzo压缩的安装和配置

207次阅读
没有评论

共计 2994 个字符,预计需要花费 8 分钟才能阅读完成。

lzo 压缩格式有很快的压缩 / 解压速度和合理的压缩率,并且支持分块 (split),所以 lzo 是目前在 Hadoop 中最流行的压缩格式。hadoop 中的 lzo 不是自带的,如果要支持 lzo,需要另外安装。本文介绍了在 hadoop2.0 上安装和配置 lzo,同样也适用于 hadoop1.0。

相关阅读

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop LZO 安装教程 http://www.linuxidc.com/Linux/2013-01/78397.htm

Hadoop 集群上使用 Lzo 压缩 http://www.linuxidc.com/Linux/2012-05/60554.htm

1 安装 linux 的 lzo 库

需要在集群的每一个节点都安装 lzo 库,假定都 64 位的机器。

在 http://rpm.pbone.net/index.php3/stat/4/idpl/12088286/dir/RedHat_el_5/com/lzo2-2.02-3.el5.rf.x86_64.rpm.html 下载 rpm 包 lzo2-2.02-3.el5.rf.x86_64.rpm 并安装

sudo rpm -ivh lzo2-2.02-3.el5.rf.x86_64.rpm

在 http://rpm.pbone.net/index.php3/stat/4/idpl/18007725/dir/redhat_el_5/com/lzo-devel-2.06-1.el5.rf.x86_64.rpm.html 下载 rpm 包 lzo-devel-2.06-1.el5.rf.x86_64.rpm 并安装

sudo rpm -ivh lzo-devel-2.06-1.el5.rf.x86_64.rpm

在 http://pkgs.repoforge.org/lzop/ 下载 rpm 包 lzop-1.03-1.el5.rf.x86_64.rpm 并安装

sudo rpm -ivh lzop-1.03-1.el5.rf.x86_64.rpm

lzop 是一个 linux 下的 lzo 压缩命令行工具,方便大家在 linux 下压缩 lzo 文件,不是必需的。

2 安装 hadoop-lzo 包

可以下载 kevinweil 的 hadoop-lzo 项目,下载地址:https://github.com/kevinweil/hadoop-lzo

也可以下载 twitter 的 hadoop-lzo 项目,下载地址:https://github.com/twitter/hadoop-lzo/

twitter 的一直在更新和维护,建议下载 twitter 的

wget https://github.com/twitter/hadoop-lzo/archive/master.zip –no-check-certificate  -O master.zip

下载之后解压

upzip master.zip

解压之后是一个目录 hadoop-lzo-master

可以修改目录 hadoop-lzo-master 里的 pom.xml, 把 hadoop.current.version 的属性从 hadoop2.1.0-beta 改为 Hadoop 2.2.0(这个不修改也没有问题,不过还是建议改一下)

64 位环境的需要设置两个环境变量:

export CFLAGS=-m64

export CXXFLAGS=-m64

然后就可以用 maven 编译了

cd hadoop-lzo-master

mvn clean package -Dmaven.test.skip=true

注意:如果前面的 linux lzo 库没有安装在标准目录下,在用 maven 编译前需要设置 C_INCLUDE_PATH 和 LIBRARY_PATH 这两个环境变量,指出 lzo 的头文件和库文件在哪个目录,如:

export C_INCLUDE_PATH=/usr/local/lzo-2.06/include

export LIBRARY_PATH=/usr/local/lzo-2.06/lib

编译好之后把编译出来的本地库和 jar 包 hadoop-lzo-0.4.18-SNAPSHOT.jar 拷贝到相应的目录,并拷贝到集群的每一个节点上的相应的目录。

cp target/native/Linux-amd64-64/* $HADOOP_HOME/lib/native/

cp target/hadoop-lzo-0.4.18-SNAPSHOT.jar  $HADOOP_HOME/share/hadoop/mapreduce/lib/

3 修改 hadoop 的配置文件 core-site.xml

修改 / 增加以下 2 个参数:

<property>

      <name>io.compression.codecs</name>

      <value>org.apache.hadoop.io.compress.GzipCodec,

              org.apache.hadoop.io.compress.DefaultCodec,

              org.apache.hadoop.io.compress.BZip2Codec,

              com.hadoop.compression.lzo.LzoCodec,

              com.hadoop.compression.lzo.LzopCodec

        </value>

</property>

<property>

        <name>io.compression.codec.lzo.class</name>

        <value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

4 hadoop 客户机 lzo 的安装和配置

和 hadoop 服务器的机器上的安装和配置一样。

5 测试

可以运行以下 hdfs 命令看是否成功

$HADOOP_HOME/bin/hdfs dfs -text /path/to/file.lzo

运行一个以 lzo 文件为输入的作业是否运行成功

6 实战 tips

在 hadoop2.0 中,把 maven 编译好的 jar 包 hadoop-lzo-0.4.18-SNAPSHOT.jar 拷贝到 $HADOOP_HOME/share/hadoop/mapreduce/lib/ 或者 $HADOOP_HOME/share/hadoop/mapreduce/ 目录下,不需要重启 hadoop 集群。

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计2994字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中