HDFS 上传文件不均衡和Balancer太慢的问题

263次阅读

共计 1236 个字符，预计需要花费 4 分钟才能阅读完成。

向 HDFS 上传文件，如果是从某个 datanode 开始上传文件，会导致上传的数据优先写满当前 datanode 的磁盘，这对于运行分布式程序是非常不利的。

解决的办法：

1、从其他非 datanode 节点上传

可以将 Hadoop 的安装目录复制一份到一个不在集群中的节点（直接从非 datanode 的 namenode 上传也可以，但是这样不太好，会增加 namenode 的负担，并且时间长了会让 namenode 上放了各种乱七八糟的文件），在这个节点上不启动任何 hadoop 进程，但是可以当作客户端使用。上传文件到集群。

也可以自己写一个上传文件的程序、在其他非集群节点上运行来上传文件。在程序中要注意自己设置必要的配置，比如 namenode 的 url、副本数等等，因为如果不设置，会使用你程序中所带的 hadoop jar 包中的默认配置，而不是集群的默认配置。

2、使用 balancer

可以通过

hdfs balancer -threshold XX

来进行平衡，xx 是一个百分比。关于这个命令的用法网上一搜一大堆。

但是默认情况下，这个平衡时非常慢的，因为默认的 hadoop 不允许 balancer 占用很大的网络带宽。

可以通过

hdfs dfsadmin -setBalanacerBandwidth newbandwidth

来设置带宽，单位是字节

————————————– 分割线 ————————————–

将本地文件拷到 HDFS 中 http://www.linuxidc.com/Linux/2013-05/83866.htm

从 HDFS 下载文件到本地 http://www.linuxidc.com/Linux/2012-11/74214.htm