Hadoop 的 MapReduce shuffle 过程,非常重要。只有熟悉整个过程才能对业务了如指掌。 M…
Solr 是什么? Solr 是一个开源的企业级搜索服务器,底层使用易于扩展和修改的 Java 来实现。服务 …
学习 Hadoop,必不可少的就是编写 MapReduce 程序。当然,对于简单的分析程序,我们只需一个 Ma…
MapReduce 中的 Shuffle 过程分为 Map 端和 Reduce 端两个过程。 Map 端: 1…
其实 MapReduce 作业运行第三方配置文件的共享方法往小了说其实就是参数在 MapReduce 作业中的…
MapReduce 模型可分为单 Reduce 模式、多 Reduce 模式以及无 Reduce 模式,对于不…
引言 1. 本文不描述 MapReduce 入门知识,这类知识网上很多,请自行查阅 2. 本文的实例代码来自官…
用户在使用 Mapreduce 时默认以 part-*命名,MultipleOutputs 可以将不同的键值对…
在许多情况下,一个用户需要了解待分析的数据,尽管这并非所要执行的分析任务 的核心内容。以统计数据集中无效记录数…
HDFS HDFS 是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点: 1)适…