共计 2430 个字符,预计需要花费 7 分钟才能阅读完成。
这周,快速发展的 Apache Spark 社区在纽约聚集,为了庆祝成为当今最受欢迎的开源项目之一。
2009 年,Spark 项目在 UC 伯克利的 AMPLab 启动,在过去的一年半里,Apache Spark 迅速流行起来。在 2014 年,Spark 已经拥有超过 465 名的代码贡献者,使得它成为 Apache Software Fundation 中以及关于大数据开源项目中最活跃的项目。
早些时候,我们主要依赖于自己的集群计算平台,而不是像在 scratch 平台上编写自己的软件。
Spark 基于内存和并行处理的能力使得它在运行项目时比 Hadoop MapReduce 在内存中计算快 100 倍,在硬盘数据处理上快 10 倍,这使得大量的数据可以一次性协作处理。
根据 Gartner 的调查, 73% 的组织会在 2016 年投资大数据,不过目前它们中的多数都无法实现该承诺,因为它们没法处理(后文丢失?)
Spark 现在已是广为人知。它 在 2014 Gray Sort Benchmark 排序大赛中的 Daytona 100TB 组赢得奖项,并创造了新的排序世界纪录。
除了对大数据的处理之外,Spark 还拥有其他好处,比如兼容 Hadoop,简化主流语言(Java,Python,Scala 和 SQL)下的接口编程,支持结构化和非结构化数据,机器学习以及数据挖掘。
与 Spark 进行深度集成的企业应用,可以执行大规模的跨部门的数据遍历和处理,这种方式在以前是不可想象的。有了这种技术,我们可以轻松浏览 企业内部 各处的数据,即使新的数据聚合得越来越多。
按行业划分早期使用者
按行业划分 Spark 的早期使用者包括消费性包装品(CPG), 保险、媒体、娱乐、制药、零售商和汽车行业,基本上包括所有焦点集中在用户的行业。
在消费性包装品 (CPG) 行业的用户分析为 Spark 呈现出一个理想的案例。获取用户的见解和动机对消费性包装品 (CPG) 行业高管来说是最重要的。大部分传统行业仅限于从几个不同的来源获取孤立的产品和用户信息。然而,快速理解用户反馈对在线产品销售、线上线下结合趋势以及基于地理位置差异来对来用户做一个更好的理解,这样将最终带来更好的销售。
快速周期分析和更快速的洞察力提供一个接近实时的视图,它最大化地提供了本地销售的供应链信息。混合的异构数据集来源于诸如 ERP 和供应链系统,连同像 Dun & Bradstreet 这样的扩展数据帮助发现更深层次的消费者需求。在访问速度上,可以收敛和分析更多私人信息,收获更多优质的数据源,品牌经理获得了更多的操作性,整体上观察可以更快地看到每日的分析,协同决策。
同样地,数据正驱动着医疗和医药行业,更快和更全面地提升诊断到治疗的速度曲线。Apache Spark 的使用让用户们处理更大容量的数据而不用延误,关联数据对的系统模式更新医院护理人员对任何致命疾病的诊断。这个早期预警系统不仅仅挽救了生命,还通过节省药物减少了在医药上的花费,还有实验室测试和其他花费。
尽管 Spark 获得了很多关注,我还是需要谨记开放,分布式计算框架仍然是一个复杂的巨兽。一个纯净的基于 Spark 的应用需要很宽泛的技能,也需要掌握大量的细节,还要很强的动手能力去创建和维护一个完全的解决方案去解决任何特定的问题集合。
进化版的 Spark 项目意味着在企业级数据智能上的创新并聚焦于:
挖掘数据的洞口
为了获得更多来自不同源的数据,我们创建很多仓筒(silo),这是不同类型信息自然的停留地点。还有一个事实形成的数据湖泊,在企业中的数据“堆”是不会在某种情形中被抛弃的。
一个纯净的基于 Spark 的解决方案并不能履行在大数据上的承诺。Spark 的大门是打开的,但是真正要履行承诺还是要解决大数据的速度,公司必须联合 Spark 在后端对 API 改进,诸如,弹性伸缩,工作调度,工作负载管理等等。
到 2016 年,我们期望各个行业的企业理解 Spark 快速周期分析的价值,用交付由数据驱动的思想去帮助变革,这样我们的社会会更适于生活和工作。
通过在 Apache Spark 上建立数据智能平台,让公司和组织拥有了新的能力,并使其在时间上拥有了重要的优势,这样他们就可以更积极地投入到与同行的市场竞争中去。
————————————– 分割线 ————————————–
Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm
CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm
Spark 简介及其在 Ubuntu 下的安装使用 http://www.linuxidc.com/Linux/2013-08/88606.htm
安装 Spark 集群(在 CentOS 上) http://www.linuxidc.com/Linux/2013-08/88599.htm
Hadoop vs Spark 性能对比 http://www.linuxidc.com/Linux/2013-08/88597.htm
Spark 安装与学习 http://www.linuxidc.com/Linux/2013-08/88596.htm
Spark 并行计算模型 http://www.linuxidc.com/Linux/2012-12/76490.htm
————————————– 分割线 ————————————–
Spark 的详细介绍:请点这里
Spark 的下载地址:请点这里
英文原文:On The Growth Of Apache Spark
本文永久更新链接地址:http://www.linuxidc.com/Linux/2015-04/116279.htm