Hadoop 使用 MapReduce 排序思路

227次阅读

没有评论

共计 735 个字符，预计需要花费 2 分钟才能阅读完成。

本文主要讲对 key 的排序，主要利用 Hadoop 的机制进行排序。

1、Partition

partition 作用是将 map 的结果分发到多个 Reduce 上。当然多个 reduce 才能体现分布式的优势。

2、思路

由于每个 partition 内部是有序的，所以只要保证各 partition 间有序，即可保证全部有序。

3、问题

有了思路，如何定义 partition 的边界，这是个问题。

解决办法：hadoop 提供了一个采样器帮我们预估整个边界，以使数据的分配尽量平均

相关阅读 ：

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境（在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建）http://www.linuxidc.com/Linux/2011-12/48894.htm

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文完

星哥玩云-微信公众号

发表至：服务器应用

2022-01-20

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

【腾讯云】推广者专属福利，新客户无门槛领取总价值高达2860元代金券，每种代金券限量500张，先到先得。

Linux下Web压力测试工具Siege的使用

httpd添加新模块

Tomcat修改内存配置

使用 Vagrant 和 Docker 在一个 VM 中进行开发

MQTT服务器的搭建与测试pub/sub通信过程

Zabbix Server自动化一键部署脚本

CentOS/RHEL 6下禁止重复的SNMP连接日志

Linux配置及测试IP多播（Multicast）

CentOS 6.3搭建个人私有云存储ownCloud

CentOS 6.5下配置Nginx

评论（没有评论）

文章搜索

Hadoop 使用 MapReduce 排序思路

申请腾讯混元的API Key并且使用LobeChat调用混元AI

Docker部署搭建一个开源强大的图书管理系统

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

让每个人都可以轻松使用Git-腾讯自研Git客户端

使用Docker部署开源的WPS-Office

ubuntu Install nginx Lua and configure waf

Bash 的路径补全功能

如何选择最合适的DDoS高防服务

如何处理阿里云ssh连接慢

Ubuntu Update OpenSSL

Hadoop 使用 MapReduce 排序 思路

Hadoop 使用 MapReduce 排序思路