阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Spark不是唯一,三种新兴的开源数据分析工具

55次阅读
没有评论

共计 1738 个字符,预计需要花费 5 分钟才能阅读完成。

 

导读在数据分析方面,影响深远的变化正在酝酿之中,而开源工具在引领许多变化。当然,你可能已熟悉这个领域的一些明星开源项目,比如 Hadoop 和 Apache Spark,不过现在出现了强烈的要求,需要全面完善数据分析生态系统的新工具。值得注意的是,许多这些工具是为了处理流数据而定制的。

物联网带来了众多传感器及其他设备,它们在生成源源不断的数据流,而物联网只是推动市场需要新型分析工具的重大趋势之一。比如需要流数据分析工具来改善药物发现,美国宇航局和搜寻外星文明研究所 (SETI) 甚至在开展合作,分析数 TB 复杂的外太空无线电信号流。

虽然 Apache Spark 在数据分析领域抢走了许多风头,那是由于 IBM 及其他公司在这方面投入了数十亿美元的研发资金,但几个藉藉无名的开源项目也在迅速崛起。下面是值得探讨的三种新兴的数据分析工具。

1.Grappa

大大小小的企业组织正在致力于研究从数据流提取宝贵信息的新方法,其中许多在处理集群上生成的数据,而且在日益处理商用硬件上生成的数据。这样一来,成本合理的、以数据为中心的方法受到了重视,这种方法可以改善 MapReduce、甚至 Spark 等工具的性能和功能。Grappa 开源项目这时候闪亮登场了,它可以在大众化集群上扩展数据密集型应用程序,并且提供了一种新型的抽象机制,比经典的分布式共享内存 (DSM) 系统更胜一筹。

Spark 不是唯一,三种新兴的开源数据分析工具

你可以在此获得 Grappa 的源代码,并找到关于它的更多信息。Grappa 的起源是这样的:一群在克雷 (Cray) 系统上运行大数据任务方面有着丰富经验的工程师想,是不是可以与克雷系统在现成商用硬件上能够实现的分析功能一较高下。

正如开发人员特别指出:“Grappa 在足够高级的层面提供了抽象,因而包括数据密集型平台所常见的许多性能优化。然而,其相对低级的接口又提供了一种方便的抽象,以便在此基础上构建数据密集型框架。(简化版)MapReduce、GraphLab 和关系查询引擎的原型实现就建立在 Grappa 的基础上,它们的性能比原有系统更胜一筹。”

采用 BSD 许可证的 Grappa 在 GitHub 上可以免费获取。如果你有兴趣看看 Grappa 是怎么实际运行的,可以在应用程序的 README 文件中遵照通俗易懂的快速启动说明,构建 Grappa 应用程序,并在集群上运行。

2.Apache Drill

Apache Drill 项目在大数据领域带来了重大的影响,以至于 MapR 等公司甚至把它纳入到其 Hadoop 发行版中。它是 Apache 的一个顶级项目,与 Apache Spark 一同应用于许多流数据场景。

Spark 不是唯一,三种新兴的开源数据分析工具

比如说,在今年 1 月份召开的纽约 Apache Drill 大会上,MapR 的系统工程师展示了 Apache Spark 和 Drill 如何可以协同用于涉及数据包捕获和近实时查询及搜索的一种使用场合下。

Drill 在流数据应用程序中之所以如此出名,是因为它是一种分布式、无模式 (schema-free) 的 SQL 引擎。开发运维和 IT 人员可以使用 Drill,以交互方式探索 Hadoop 及其他 NoSQL 数据库 (比如 HBase 和 MongoDB) 中的数据。不需要明确定义和维护模式,因为 Drill 可以自动充分利用嵌入到数据中的结构。它能够在操作员之间的内存中流式传输数据,并且尽量减少使用完成查询所需的磁盘。

3.Apache Kafka

Apache Kafka 项目已凭借实时数据跟踪功能俨然成为一颗明星。它提供了处理实时数据的功能,具有统一、高吞吐量、低延迟等优点。Confluent 及其他组织还开发了自定义工具,以便 Kafka 与数据流结合使用。

Spark 不是唯一,三种新兴的开源数据分析工具

Apache Kafka 最初由 LinkedIn 开发,后来在 2011 年年初开放了源代码。它是一种经过加固和测试的工具,许多企业组织要求员工拥有 Kafka 方面的知识。使用 Kafka 的知名公司包括思科、网飞、贝宝、优步和 Spotify。

LinkedIn 当初开发 Kafka 的那些工程师还成立了 Confluent,它专注于 Kafka。Confluent 大学为 Kafka 开发人员以及操作员 / 管理员提供培训课程。现场课程和公开课程都有提供。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-24发表,共计1738字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中