Spark 能够从任何支持 Hadoop 的存储源来创建 RDD,包括本地的文件系统,HDFS,Cassand…
Spark 官方文档 – 中文翻译 1 概述(Overview) 2 引入 Spark(Linki…
Spark 作为分布式的大数据处理框架必然或涉及到大量的作业调度,如果能够理解 Spark 中的调度对我们编写…
环境:Spark-1.5.0 HBase-1.0.0。 场景:HBase 中按天分表存数据,要求将任意时间段的…
现在网上很多 spark 开发环境的搭建都是基于 idea 的,个人用习惯了 eclipse,还是用 ecli…
配置 Ubuntu 下使用 Python 开发 Spark 应用 Ubuntu 64 位基本环境配置 安装 J…
谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解…
假如有这样一个场景:系统每秒钟都会收到大量的事件,每个事件又包含很多参数,用户不仅需要准实时地还需要定期地判断…
Spark 是时下很火的计算框架,由 UC Berkeley AMP Lab 研发,并由原班人马创建的 Dat…
Hadoop 就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和…