共计 533 个字符,预计需要花费 2 分钟才能阅读完成。
Hadoop 旧版中 InputSplit 的个数由下面三个参数决定:
goalSize:totalSize/numSpilt.totalSize 为文件大小,numSplit 为用户设定的 map task 个数,默认为 1.
minSize:InputSplit 的最小值,由配置参数 mapred.min.split.size, 默认为 1.
blockSize:HDFS 中块的大小.
splitSize = max(minSize,min(goalSize,blockSIze))
新版:
maxSize:由配置参数 mapred.max.split.size 确定,已经不再考虑用户设定的 map task 个数.
minSize:InputSplit 的最小值,由配置参数 mapred.min.split.size, 默认为 1.
blockSize:HDFS 中块的大小.
splitSize = max(minSize,min(maxSize,blockSIze))
更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13
本文永久更新链接地址 :http://www.linuxidc.com/Linux/2015-05/118027.htm
正文完
星哥玩云-微信公众号