阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop新版和旧版中InputSplit大小的区别

196次阅读
没有评论

共计 533 个字符,预计需要花费 2 分钟才能阅读完成。

Hadoop 旧版中 InputSplit 的个数由下面三个参数决定:

goalSize:totalSize/numSpilt.totalSize 为文件大小,numSplit 为用户设定的 map task 个数,默认为 1.

minSize:InputSplit 的最小值,由配置参数 mapred.min.split.size, 默认为 1.

blockSize:HDFS 中块的大小.

splitSize = max(minSize,min(goalSize,blockSIze))

新版:

maxSize:由配置参数 mapred.max.split.size 确定,已经不再考虑用户设定的 map task 个数.

minSize:InputSplit 的最小值,由配置参数 mapred.min.split.size, 默认为 1.

blockSize:HDFS 中块的大小.

splitSize = max(minSize,min(maxSize,blockSIze))

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2015-05/118027.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计533字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中