阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

分布式内存文件系统Alluxio实战

226次阅读
没有评论

共计 7978 个字符,预计需要花费 20 分钟才能阅读完成。

前言

Alluxio 是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在 Alluxio 里的文件。把 Alluxio 是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件,其前身为 Tachyon。

Alluxio 起源于 Alluxio 公司创始人李浩源读博期间在 UC Berkeley AMPLab 实验室的博士课题。自从 Alluxio 的第一个开源版本发布之后,项目发展迅猛。社区贡献者人数已经迅速增加到 200 多个,这 200 多人来自 50 多家公司,其中不乏国际巨头,例如 Barclays,IBM,Intel 等等。另外更多的公司将 Alluxio 部署到了自己的生产环境中。

官方网站:http://www.alluxio.org/

分布式内存文件系统 Alluxio 实战

规划

master 10.64.8.3

slave  10.64.8.3、10.64.8.4、10.64.8.5

一:安装

slave1、slave2、slave3

(1)安装 jdk

$ wget http://download.Oracle.com/otn-pub/java/jdk/8u112-b15/jdk-8u112-linux-x64.tar.gz
tar xf jdk-8u112-linux-x64.tar.gz -C /opt
$ vim /etc/profile
增加
export JAVA_HOME=/opt/jdk1.8.0_112
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source /etc/profile

(2)安装 alluxio

cd opt
$ wget http://downloads.alluxio.org/downloads/files/1.3.0/alluxio-1.3.0-bin.tar.gz
tar xf alluxio-1.3.0-bin.tar.gz
cd alluxio-1.3.0

二:集群配置

  • slave1、slave2、slave3

1:使用 conf/alluxio-env.sh.template 复制一份配置。

cp conf/alluxio-env.sh.template conf/alluxio-env.sh
#!/usr/bin/env bash
#alluxio 的安装目录
ALLUXIO_HOME=/opt/alluxio-1.3.0
# Log 目录 (默认: ${ALLUXIO_HOME}/logs).
#ALLUXIO_LOGS_DIR=/var/log/alluxio
# master 的主机名
ALLUXIO_MASTER_HOSTNAME=slave1
# master 节点 ip,将在 V2 版本废弃该配置
# ALLUXIO_MASTER_ADDRESS=10.64.8.3
# worker 节点保存 in-memory 数据的目录 (Default: /mnt/ramdisk).
#ALLUXIO_RAM_FOLDER
# 底层存储系统的地址,默认为本地文件系统 (Default: ${ALLUXIO_HOME}/underFSStorage)
#ALLUXIO_UNDERFS_ADDRESS
# worker 节点的内存设置. (Default: 1GB)
ALLUXIO_WORKER_MEMORY_SIZE= 50GB
# 下面 jmx 的远程调试
# ALLUXIO_JAVA_OPTS
# ALLUXIO_MASTER_JAVA_OPTS
# ALLUXIO_WORKER_JAVA_OPTS
# ALLUXIO_USER_JAVA_OPTS

2:配置 worker 节点

$ vim conf/workers
10.64.8.3
10.64.8.4
10.64.8.5

三:启动

(1)格式化 Alluxio 日志和工作程序存储目录。

  • slave1、slave2、slave3

$ ./bin/alluxio format

(2)启动 master 节点,使用 local 参数同时启动 master 和 worker。

  • slave1

$ ./bin/alluxio-start.sh local

分布式内存文件系统 Alluxio 实战分布式内存文件系统 Alluxio 实战

(3)启动 worker 节点

  • slave2、slave3

$ ./bin/alluxio-start.sh worker

分布式内存文件系统 Alluxio 实战

四:访问

(1)访问的 http://localhost:19999 看到 Alluxio 的 master

分布式内存文件系统 Alluxio 实战

(2)能看到所有 alluxio 中的文件。

分布式内存文件系统 Alluxio 实战

 

(3)worker 里面能看到所有 worker 的状态

分布式内存文件系统 Alluxio 实战

 

(4)访问 http://localhost:30000 看到当前 worker 的信息。

分布式内存文件系统 Alluxio 实战

 

五:使用 alluxio 命令行

(1)查看 aullio,默认使用本地地址端口

$ ./bin/alluxio fs ls alluxio://10.64.8.3:19999/
$ ./bin/alluxio fs ls /

分布式内存文件系统 Alluxio 实战

(2)从本地文件系统 copy 文件到 alluxio

$ ./bin/alluxio fs copyFromLocal /opt/cassandra/conf/ /cassandra
Copied /opt/cassandra to /cassandra

分布式内存文件系统 Alluxio 实战

(3)cat 命令可以输出文件内容

$ ./bin/alluxio fs cat /test.txt

分布式内存文件系统 Alluxio 实战

(4)从 alluxio 拷贝文件到本地

$ ./bin/alluxio fs copyToLocal /602.txt /tmp/602.txt
Copied /602.txt to /tmp/602.txt

分布式内存文件系统 Alluxio 实战

(5)将 alluxio 数据持久化到本地

alluxio 的数据是存在内存中的,默认使用本地的文件系统作为底层的系统,可以将 alluxio 中的数据持久化到本地文件系。路径由 ALLUXIO_UNDERFS_ADDRESS 指定,默认为./underFSStorage/

$ ./bin/alluxio fs persist /cassandra
ls ./underFSStorage/
cassandra

(6)常见支持的命令, 与 linux 系统命令用法相同。

./bin/alluxio fs cat
./bin/alluxio fs chmod
./bin/alluxio fs chown
./bin/alluxio fs cp
./bin/alluxio fs mv
./bin/alluxio fs rm
./bin/alluxio fs touch
./bin/alluxio fs mkdir 

更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2017-03/142139p2.htm

六:使用 NFS 作为底层文件系统

(1)在 master 上面挂载 nfs

/etc/init.d/rpcbind start
mount -t nfs -o vers=3,tcp 10.10.10.10:/Vol-01/alluxio /mnt/nfs

(2)修改 alluxio 配置

$ vim ./conf/alluxio-env.sh
#ALLUXIO_UNDERFS_ADDRESS=
改成
ALLUXIO_UNDERFS_ADDRESS=/mnt/nfs

(3)格式化

$ ./bin/alluxio format 

(4)启动

master

$ ./bin/alluxio-start.sh master

worker

$ ./bin/alluxio-start.sh worker 

(5)测试

创建一个文件在 nfs 中

echo 11111111111 >>/mnt/nfs/nfstest.txt

查看 alluxio 就能看到这个文件

$./bin/alluxio fs ls /
-rw-r--r--   root    root   12.00B  11-08-2016 17:22:34:477  Not In Memory  /nfstest.txt
$./bin/alluxio fs cat /nfstest.txt
11111111111

七: 使用 HDFS 作为底层文件系统

(1)alluxio 版本

默认的 alluxio-1.3.0-bin.tar.gz 安装包支持 hdfs 2.2.0,使用其他版本的 hdfs 则需要下载对应的 alluxio 安装包。或者利用默认包进行重新编译,步骤如下

1:修改 pom.xml 中的,使用 Hadoop2.2

<hadoop.version>2.2.0</hadoop.version>
修改为
<hadoop.version>2.6.0</hadoop.version>

2:重新编译

$ mvn clean package -DskipTests

编译成功后会在 assembly/target 目录中生成新的 alluxio-assemblies-1.3.0-jar-with-dependencies.jar

(2)alluxio 配置

1:修改 conf/alluxio-env.sh

$ vim conf/alluxio-env.sh
ALLUXIO_UNDERFS_ADDRESS=hdfs://10.64.8.1:8020

(3)格式化

$ ./bin/alluxio format

(4)启动

master

$ ./bin/alluxio-start.sh master

worker

$ ./bin/alluxio-start.sh worker

(5)查看

$ ./bin/alluxio ls  /

发现 hdfs 中的文件都在 alluxio 中。

分布式内存文件系统 Alluxio 实战

分布式内存文件系统 Alluxio 实战

八: 使用 fuse 挂载 alluxio

  • Linux kernel 2.6.9 及以上
  • JDK 1.8 及以上
  • libfuse 2.9.3 及以上 (2.8.3 也能够工作,但会提示一些警告)
  • 需要根据源码包进行重新编译、需要 jdk、maven、libfuse

(1)配置 jdk

$ wget http://download.Oracle.com/otn-pub/java/jdk/8u112-b15/jdk-8u112-linux-x64.tar.gz
tar xf jdk-8u112-linux-x64.tar.gz -C /opt
$ vim /etc/profile
增加
export JAVA_HOME=/opt/jdk1.8.0_112
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source /etc/profile 

(2)配置 maven

$ wget http://mirrors.cnnic.cn/apache/maven/maven-3/3.0.5/binaries/apache-maven-3.0.5-bin.tar.gz
tar -zxvf apache-maven-3.0.5-bin.tar.gz
$vim /etc/profile
增加
export MAVEN_HOME=/opt/apache-maven-3.0.5
export PATH=$PATH:$MAVEN_HOME/bin
source /etc/profile 

(2)���装 libfuse

$ wget http://mirror.CentOS.org/centos/6/os/x86_64/Packages/fuse-libs-2.8.3-5.el6.x86_64.rpm
$ rpm -ivh fuse-libs-2.8.3-5.el6.x86_64.rpm 

(3) 编译安装

$ git clone git://github.com/alluxio/alluxio.git
cd alluxio
$ mvn install -DskipTests      --- 需要 download 文件
若出现 java.lang.OutOfMemoryError: Java heap space,请执行:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 

(4) 使用 alluxio-fuse

以 hdfs 作为底层存储系统为例,其他存储也是这样。

格式化

$ ./bin/alluxio format

启动

$ ./bin/alluxio-start.sh worker

挂载

mkdir -p /data/test
$ ./bin/alluxio-fuse.sh mount /data/test

分布式内存文件系统 Alluxio 实战分布式内存文件系统 Alluxio 实战

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2017-03/142139.htm

前言

Alluxio 是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在 Alluxio 里的文件。把 Alluxio 是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件,其前身为 Tachyon。

Alluxio 起源于 Alluxio 公司创始人李浩源读博期间在 UC Berkeley AMPLab 实验室的博士课题。自从 Alluxio 的第一个开源版本发布之后,项目发展迅猛。社区贡献者人数已经迅速增加到 200 多个,这 200 多人来自 50 多家公司,其中不乏国际巨头,例如 Barclays,IBM,Intel 等等。另外更多的公司将 Alluxio 部署到了自己的生产环境中。

官方网站:http://www.alluxio.org/

分布式内存文件系统 Alluxio 实战

规划

master 10.64.8.3

slave  10.64.8.3、10.64.8.4、10.64.8.5

一:安装

slave1、slave2、slave3

(1)安装 jdk

$ wget http://download.Oracle.com/otn-pub/java/jdk/8u112-b15/jdk-8u112-linux-x64.tar.gz
tar xf jdk-8u112-linux-x64.tar.gz -C /opt
$ vim /etc/profile
增加
export JAVA_HOME=/opt/jdk1.8.0_112
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source /etc/profile

(2)安装 alluxio

cd opt
$ wget http://downloads.alluxio.org/downloads/files/1.3.0/alluxio-1.3.0-bin.tar.gz
tar xf alluxio-1.3.0-bin.tar.gz
cd alluxio-1.3.0

二:集群配置

  • slave1、slave2、slave3

1:使用 conf/alluxio-env.sh.template 复制一份配置。

cp conf/alluxio-env.sh.template conf/alluxio-env.sh
#!/usr/bin/env bash
#alluxio 的安装目录
ALLUXIO_HOME=/opt/alluxio-1.3.0
# Log 目录 (默认: ${ALLUXIO_HOME}/logs).
#ALLUXIO_LOGS_DIR=/var/log/alluxio
# master 的主机名
ALLUXIO_MASTER_HOSTNAME=slave1
# master 节点 ip,将在 V2 版本废弃该配置
# ALLUXIO_MASTER_ADDRESS=10.64.8.3
# worker 节点保存 in-memory 数据的目录 (Default: /mnt/ramdisk).
#ALLUXIO_RAM_FOLDER
# 底层存储系统的地址,默认为本地文件系统 (Default: ${ALLUXIO_HOME}/underFSStorage)
#ALLUXIO_UNDERFS_ADDRESS
# worker 节点的内存设置. (Default: 1GB)
ALLUXIO_WORKER_MEMORY_SIZE= 50GB
# 下面 jmx 的远程调试
# ALLUXIO_JAVA_OPTS
# ALLUXIO_MASTER_JAVA_OPTS
# ALLUXIO_WORKER_JAVA_OPTS
# ALLUXIO_USER_JAVA_OPTS

2:配置 worker 节点

$ vim conf/workers
10.64.8.3
10.64.8.4
10.64.8.5

三:启动

(1)格式化 Alluxio 日志和工作程序存储目录。

  • slave1、slave2、slave3

$ ./bin/alluxio format

(2)启动 master 节点,使用 local 参数同时启动 master 和 worker。

  • slave1

$ ./bin/alluxio-start.sh local

分布式内存文件系统 Alluxio 实战分布式内存文件系统 Alluxio 实战

(3)启动 worker 节点

  • slave2、slave3

$ ./bin/alluxio-start.sh worker

分布式内存文件系统 Alluxio 实战

四:访问

(1)访问的 http://localhost:19999 看到 Alluxio 的 master

分布式内存文件系统 Alluxio 实战

(2)能看到所有 alluxio 中的文件。

分布式内存文件系统 Alluxio 实战

 

(3)worker 里面能看到所有 worker 的状态

分布式内存文件系统 Alluxio 实战

 

(4)访问 http://localhost:30000 看到当前 worker 的信息。

分布式内存文件系统 Alluxio 实战

 

五:使用 alluxio 命令行

(1)查看 aullio,默认使用本地地址端口

$ ./bin/alluxio fs ls alluxio://10.64.8.3:19999/
$ ./bin/alluxio fs ls /

分布式内存文件系统 Alluxio 实战

(2)从本地文件系统 copy 文件到 alluxio

$ ./bin/alluxio fs copyFromLocal /opt/cassandra/conf/ /cassandra
Copied /opt/cassandra to /cassandra

分布式内存文件系统 Alluxio 实战

(3)cat 命令可以输出文件内容

$ ./bin/alluxio fs cat /test.txt

分布式内存文件系统 Alluxio 实战

(4)从 alluxio 拷贝文件到本地

$ ./bin/alluxio fs copyToLocal /602.txt /tmp/602.txt
Copied /602.txt to /tmp/602.txt

分布式内存文件系统 Alluxio 实战

(5)将 alluxio 数据持久化到本地

alluxio 的数据是存在内存中的,默认使用本地的文件系统作为底层的系统,可以将 alluxio 中的数据持久化到本地文件系。路径由 ALLUXIO_UNDERFS_ADDRESS 指定,默认为./underFSStorage/

$ ./bin/alluxio fs persist /cassandra
ls ./underFSStorage/
cassandra

(6)常见支持的命令, 与 linux 系统命令用法相同。

./bin/alluxio fs cat
./bin/alluxio fs chmod
./bin/alluxio fs chown
./bin/alluxio fs cp
./bin/alluxio fs mv
./bin/alluxio fs rm
./bin/alluxio fs touch
./bin/alluxio fs mkdir 

更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2017-03/142139p2.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计7978字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中