共计 735 个字符,预计需要花费 2 分钟才能阅读完成。
本文主要讲对 key 的排序,主要利用 Hadoop 的机制进行排序。
1、Partition
partition 作用是将 map 的结果分发到多个 Reduce 上。当然多个 reduce 才能体现分布式的优势。
2、思路
由于每个 partition 内部是有序的,所以只要保证各 partition 间有序,即可保证全部有序。
3、问题
有了思路,如何定义 partition 的边界,这是个问题。
解决办法:hadoop 提供了一个采样器帮我们预估整个边界,以使数据的分配尽量平均
相关阅读 :
Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm
Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm
Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm
Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm
单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm
搭建 Hadoop 环境(在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建)http://www.linuxidc.com/Linux/2011-12/48894.htm
更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13